연속형 확률변수의 공동 확률분포 가운데 가장 널리 쓰이는 것은 다변량 가우시안 (Multivariate Gaussian, MVG) 또는 다변량 정규 분포(Multivariate Normal, MVN)입니다. 수학적으로 다루기 편리할 뿐 아니라, 실제 데이터에서도 “가우시안 가정”이 의외로 잘 맞는 경우가 많기 때문입니다.
1. 정의(Definition)
다변량 정규분포의 PDF는 다음과 같이 정의됩니다.
$$\mathcal{N}(\mathbf{y}|\mathbf{\mu}, \Sigma) = \frac{1}{(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp} \left[ -\frac{1}{2} (\mathbf{y} - \mathbf{\mu})^{T}\Sigma^{-1}(\mathbf{y} - \mathbf{\mu}) \right]$$
여기서 $\mu = \mathbb{E}[\mathbf{y}] \in \mathbb{R}^{D}$는 평균 벡터, $\Sigma = \text{Cov}[\mathbf{y}] \in \mathbb{R}^{D \times D}$는 공분산 행렬입니다. 공분산 행렬의 정의는 이전 포스팅에서 보았지만 다음과 같습니다.
$$\begin{align} \text{Cov}[\mathbf{y}] &= \mathbb{E}[(\mathbf{y} - \mathbb{E}[\mathbf{y}])(\mathbf{y} - \mathbb{E}[\mathbf{y}])^{T}] \\ &= \begin{pmatrix} \mathbb{V}[Y_{1}] & \text{Cov}[Y_{1}, Y_{2}] & \cdots & \text{Cov}[Y_{1}, Y_{D}] \\ \text{Cov}[Y_{2}, Y_{1}] & \mathbb{V}[Y_{2}] & \cdots & \text{Cov}[Y_{2}, Y_{D}] \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}[Y_{D}, Y_{1}] & \text{Cov}[Y_{D}, Y_{2}] & \cdots & \mathbb{V}[Y_{D}] \end{pmatrix} \end{align}$$
이때 $\text{Cov}[Y_{i}, Y_{j}] = \mathbb{E}[(Y_{i} - \mathbb{E}[Y_{i}])(Y_{j} - \mathbb{E}[Y_{j}])] = \mathbb{E}[Y_{i}Y_{j}] - \mathbb{E}[Y_{i}]\mathbb{E}[Y_{j}]$이고 $\mathbb{V}[Y_{i}] = \text{Cov}[Y_{i}, Y_{i}]$로 정의됩니다. 또한, $\mathbb{E}[\mathbf{y}\mathbf{y}^{T}] = \Sigma + \mu\mu^{T}$입니다. 여기서, 정규화 상수 $(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}$ 덕분에 전체 적분값이 1이 됩니다.
간단한 예시로 2차원 정규분포(Bivariate Gaussian Distribution)를 보도록 하겠습니다. 이 경우에는 $D = 2$로 고정되며 다음과 같은 PDF를 가집니다.
$$\mathcal{N}(\mathbf{y}|\mathbf{\mu}, \Sigma) = \frac{1}{(2\pi)|\Sigma|^{\frac{1}{2}}}\text{exp} \left[ -\frac{1}{2} (\mathbf{y} - \mathbf{\mu})^{T}\Sigma^{-1}(\mathbf{y} - \mathbf{\mu}) \right]$$
그리고 $\mathbf{y} \sim \mathcal{N}(\mu, \Sigma)$일 때 $\Sigma = \begin{pmatrix} \sigma_{1}^{2} & \rho\sigma_{1}\sigma_{2} \\ \rho\sigma_{1}\sigma_{2} & \sigma_{2}^{2} \end{pmatrix}$입니다. 그리고 $\rho = \frac{\text{Cov}[Y_{1}, Y_{2}]}{\sigma_{1}\sigma_{2}}$는 상관계수입니다. 이를 전체 전개하면 다음과 같은 PDF를 가집니다.
$$p(y_{1}, y_{2}) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2}}}\text{exp}\left( -\frac{1}{2(1 - \rho^{2})} \times \left[ \frac{(y_{1} - \mu_{1})^{2}}{\sigma_{1}^{2}} + \frac{(y_{2} - \mu_{2})^{2}}{\sigma_{2}^{2}} - 2\rho\frac{(y_{1} - \mu_{1})}{\sigma_{1}}\frac{(y_{2}-\mu_{2})}{\sigma_{2}} \right] \right)$$

위 그림은 다양한 형태의 2차원 정규분포를 보여주고 있습니다. 수식은 복잡했지만 핵심은 이차곡선(타원) 모양의 등고선으로 나타난다는 점입니다. 상관계수 $\rho$가 0이면 주축이 좌표축과 평행한 원형 그리고 $|\rho|$가 1에 가까울수록 길게 기울어진 선형 모양이 됩니다.
이때, 공분산 행렬의 종류에 따라서 그 형태가 달라집니다. 풀 공분산 행렬(Full Covariance Matrix)는 자유도가 $\frac{D(D + 1)}{2}$로 모든 상관계수를 표현할 수 있지만 계산량이 그만큼 복잡해집니다. 대각 공분산 행렬(Diagonal Covariance Matrix)는 자유도가 $D$로 변수 간의 상관관계는 0으로 가정합니다. 마지막으로 구형(Spherical)은 자유도가 1로 $\Sigma = \sigma^{2}\mathbf{I}_{D}$로 모든 축 방향으로 분산이 동일해집니다. 파라미터 수가 적을수록 단순하지만, 데이터의 복잡한 상관구조를 놓칠 수 있습니다. 모델 선택 시 편리함과 표현력 사이의 균형이 중요합니다.
2. 마할라노비스 거리(Mahalanobis Distance)
다변량 가우시안의 PDF가 어떤 모양을 이루는지 이해하려면, “같은 (로그)확률 값을 갖는 점들의 집합”, 즉 **등확률 곡선(level set)**을 살펴보면 됩니다.
2.1 로그 확률과 마할라노비스 거리
$$\log p(\mathbf{y} | \mu, \Sigma) = -\frac{1}{2} (\mathbf{y} - \mu)^{T} \Sigma^{-1} (\mathbf{y} - \mu) + \text{const}$$
여기서 확률이 $\mathbf{y}$에 의존하는 부분은 아래 마할라노비스 거리의 제곱으로 묶을 수 있습니다.
$$\Delta^{2} = (\mathbf{y} - \mu)^{T}\Sigma^{-1}(\mathbf{y} - \mu)$$
이때, $\Delta$가 작을수록 $\mathbf{y}$는 평균 $\mathbf{u}$ 근처에 있고 $\Delta$가 클수록 평균 $\mathbf{u}$에서 멀리 떨어져있음을 의미합니다. 즉, “로그 확률이 동일” ⇔ “마할라노비스 거리가 동일”입니다.
2.2 거리의 기하학적 의미: “화이트닝(whitening)”
공분산 행렬 $\Sigma$는 대칭·양의정부호이므로 고유분해가 가능합니다.
$$\Sigma = \sum_{d = 1}^{D} \lambda_{d}\mathbf{u}_{d}\mathbf{u}_{d}^{T}$$
$$\Sigma^{-1} = \sum_{d = 1}^{D} \frac{1}{\lambda_{d}}\mathbf{u}_{d}\mathbf{u}_{d}^{T}$$
여기서 $\lambda_{d}$는 $d$번째 고윳값(분산의 크기)이고 $\mathbf{u}_{d}$는 $d$번째 고유벡터(방향)을 의미합니다. 평균을 원점으로 옮긴 벡터를 $\mathbf{z} = \mathbf{U}(\mathbf{y} - \mu)$라고 두면 $\Delta^{2} = \sum_{d = 1}^{D} \frac{z^{2}_{d}}{\lambda_{d}}$이라고 할 수 있습니다. 즉, 1) $\mathbf{y} - \mu$를 고유벡터로 이루어진 orthogonal 행렬 $\mathbf{U}$로 회전시킨 뒤, 2) 각 축을 $\sqrt{\lambda_{d}}$만큼 나누어주는 스케일링을 적용하면 새 좌표계 $\mathbf{z}$에서 마할라노비스 거리는 단순한 유클리드 거리가 됩니다. 이를 “데이터를 whiten한다”고 말합니다. 이 부분은 향후에 더 자세히 설명하도록 하겠습니다.
2.3 2차원 예시: 타원 등고선
$D = 2$일 때 마할라노비스 거리 $\Delta = r$인 점들은 $\frac{z_{1}^{2}}{\lambda_{1}} + \frac{z_{2}^{2}}{\lambda_{2}} = r^{2}$이 됩니다. 이는 중심이 원점이고 반지름이 $r\sqrt{\lambda_{1}}$ 그리고 $r\sqrt{\lambda_{2}}$인 타원의 방정식입니다. 그러면 원래 공간 $\mathbf{y}$로 되돌리면 등확률선이 타원을 이룬다라는 사실을 얻습니다.
이처럼 마할라노비스 거리는 “공분산 행렬이 왜곡시킨 공간”을 회전·늘이기·줄이기로 펴서, 평범한 원 안팎으로 해석하게 해 줍니다. 덕분에 다변량 정규분포의 확률 구조가 타원이라는 사실이 한눈에 드러납니다.
3. 다변량 정규 분포의 주변분포와 조건부분포(Marginals and conditionals of an MVN)
이번에는 두 개의 서로 연관된 연속형 변수 $\mathbf{y} = (\mathbf{y}_{1}, \mathbf{y}_{2})^{T}$가 공동으로 MVN을 따른다고 가정하겠습니다. 즉, $\mathbf{y} \sim \mathcal{N}(\mu, \Sigma)$라고 하죠. 그리고 평균벡터 $\mu = \begin{pmatrix} \mu_{1} \\ \mu_{2} \end{pmatrix}$, 공분산행렬 $\Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}$라고 하면 정밀도 행렬 $\Lambda = \Sigma^{-1} = \begin{pmatrix} \Lambda_{11} & \Lambda_{12} \\ \Lambda_{21} & \Lambda_{22} \end{pmatrix}$가 됩니다.
3.1 주변분포(Marginal Distribution)
하나의 변수만 떼어놓고 보면 여전히 정규분포입니다.
$$p(y_{1}) = \mathcal{N}(y_{1} | \mu_{1}, \Sigma_{11})$$
$$p(y_{2}) = \mathcal{N}(y_{2} | \mu_{2}, \Sigma_{22})$$
3.2 조건부분포(Conditional Distribution)
이번에는 어느 한 변수를 알고 있을 때, 다른 변수가 어떻게 분포하는지 구합니다. 예를 들어 $y_{2}$를 관측했다면 $y_{1}$의 사후분포는 다음과 같습니다.
$$p(y_{1}|y_{2}) = \mathcal{N}(y_{1}|\mu_{1|2}, \Sigma_{1|2})$$
일단 조건부 평균은 $\mu_{1|2}$는 다음과 같이 정의됩니다. 다만 3가지의 다른 형태가 있지만 모두 동일한 결과를 제공합니다.
$$\begin{align} \mu_{1|2} &= \mu_{1} + \Sigma_{12}\Sigma_{22}^{-1} (y_{2} - \mu_{2}) \\ &= \mu_{1} - \Lambda_{11}^{-1}\Lambda_{12}(y_{2} - \mu_{2}) \\ &= \Sigma_{1|2} (\Lambda_{11}\mu_{1} - \Lambda_{12}(y_{2} - \mu_{2})) \end{align}$$
- 첫 줄 : 공분산을 사용—가장 직관적이며 머신러닝 교재에서 흔히 등장
- 둘째 줄 : 정밀도(precision) 행렬만 있으면 계산 가능—그래프 모델에서 편리
- 셋째 줄 : ‘조건부 공분산’을 곱해 정규화한 형태—행렬식·로그우도 계산 때 유용
그리고 조건부 공분산 $\Sigma_{1|2}$는 다음과 같이 정의됩니다.
$$\begin{align} \Sigma_{1|2} &= \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \\ &= \Lambda_{11}^{-1} \end{align}$$
- 첫 표현 은 Schur 보수(Schur complement) 로 알려진 공식.
- 둘째 표현 은 “블록 역행렬” 공식으로부터 바로 얻어집니다.
이 부분에 대한 자세한 증명들은 향후에 더 자세히 설명하도록 하겠습니다. 결론은 다변량 정규 분포는 “잘라 써도, 조건 걸어도” 정규 분포입니다. 주변분포는 단순 추출, 조건부분포는 선형·상수 행렬 계산만으로 얻을 수 있어, 칼만필터부터 베이지안 머신러닝 전반에 걸쳐 “알짜 공식”으로 쓰입니다