지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 2)에서는 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보았습니다. 오늘은 상호정보량과 상관계수 사이의 관계성에 대해서 더 자세하게 알아보도록 하겠습니다.
$(x, y)$가 결합 가우시안 (joint Gaussian)이라고 가정하면 다음과 같이 쓸 수 있습니다.
$$\begin{pmatrix} x \\ y \end{pmatrix} \sim \mathcal{N} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \sigma^{2} & \rho \sigma^{2} \\ \rho \sigma^{2} & \sigma^{2} \end{pmatrix} \right)$$
이제 두 확률 변수 사이의 상호정보량을 계산해보도록 하겠습니다. 이를 위해서 이전에 계산했던 가우시안 분포의 엔트로피 식을 활용하면 다음과 같이 닫힌 결과로 식을 얻을 수 있습니다.
$$h(X, Y) = \frac{1}{2} \log \left[ (2\pi e)^{2} \text{det} (\Sigma) \right] = \frac{1}{2} \log \left[ (2\pi e)^{2} \sigma^{2} (1 - \rho^{2}) \right]$$
또한, 두 확률 변수는 모두 각각 분산이 $\sigma^{2}$인 가우시안 분포로 가정했기 때문에 $h(X) = h(Y) = \frac{1}{2} \log \left[ 2\pi e \sigma^{2} \right]$이 됩니다. 따라서, 이전 포스팅에서 구했던 상호정보량과 엔트로피 사이의 관계를 이용하면 다음과 같은 결과를 얻을 수 있습니다.
$$\begin{align} \mathbb{I}(X; Y) &= h(X) + h(Y) - h(X, Y) \\ &= \log \left[ 2\pi e \sigma^{2} \right] - \frac{1}{2} \log \left[ (2\pi e)^{2}\sigma^{4}(1 - \rho^{2}) \right] \\ &= \frac{1}{2} \log \left[ (2\pi e \sigma^{2})^{2} \right] - \frac{1}{2} \log \left[ (2\pi e \sigma^{2})^{2}(1 - \rho^{2}) \right] \\ &= \frac{1}{2} \log \frac{1}{1 - \rho^{2}} \\ &= -\frac{1}{2} \log |1 - \rho^{2}| \end{align} $$
위 식에서 몇 가지 특수한 경우를 고려해볼 수 있습니다. $\rho = 1$이라면 $X = Y$가 되어 $\mathbb{I}(X; Y) = \infty$가 됩니다. 이 결과는 $Y$를 관측하는 것은 $X$의 결과를 정확하게 알게 되는 것과 동일하기 때문에 $X$에 대한 정보가 무한해진다는 것과 동일합니다. 또한, $\rho = -1$인 경우도 $X = -Y$가 되기 때문에 $\mathbb{I}(X; Y) = \infty$가 됩니다. 이 결과 역시 $Y$를 관측하는 것은 $X$의 결과를 정확하게 알게 되는 것과 동일하기 때문에 $X$에 대한 정보가 무한해진다는 것과 동일합니다. 반면에 $\rho = 0$이라면 $X$와 $Y$는 서로 독립이라는 뜻이기 때문에 $\mathbb{I}(X; Y) = 0$이 되어 이 역시 타당한 결과가 되죠. 즉, $Y$를 관측하더라도 $X$에 대한 정보를 전혀 알 수 없다는 의미입니다.
지금까지의 예시는 결합 가우시안인 경우만을 고려하였습니다. 하지만, 일반적으로 결합 가우시안 아니라면 연속 확률변수의 상호정보량을 계산하는 것은 매우 어렵습니다. 왜냐하면 결합밀도 $p(X, Y)$를 닫힌 형태로 계산하는 것이 어렵기 때문에 추정해야하기 때문이죠. 이를 위해 두 변수를 이산화 또는 양자화하는 방법이 있습니다. 이는 각 변수의 범위를 여러 구간 (bin)으로 나누어 히스토그램의 각 구간에 값이 몇 개가 포함되어 있는 세어 경험적 PMF를 얻어 MI를 계산하는 방식입니다. 하지만, 이는 구간의 개수와 경계의 위치가 MI 계산에 큰 영향을 주는 것이 문제점입니다.