지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 4)에서는 forward KL과 reverse KL 사이의 차이점에 대해서 알아보았습니다. 주제를 조금 바꾸어 상호 정보량 (Mutual Information)에 대해서 더 자세히 알아보도록 하겠습니다.
KL 발산은 두 분포가 얼마나 비슷한 지 측정하는 도구 중에 하나로 유사성에 초점을 맞춘 방식이였죠. 그렇다면 두 확률변수 $X$와 $Y$가 얼마나 의존하는 지는 어떤 방식으로 측정할 수 있을까요? 한 가지 아이디어는 질문을 이렇게 바꾸는 것 입니다.
둘이 얼마나 의존적인가? $\Rightarrow$ 둘의 분포가 서로 독립일 때의 분포와 얼마나 큰 차이가 있나?
이 관점에서 정의되는 것이 바로 상호정보량 (Mutual Information; MI)입니다. 임의의 확률변수 $X$와 $Y$에 대해 상호정보량은 다음과 같이 정의합니다.
$$\mathbb{I}(X; Y) = \mathcal{D}_{\mathbb{KL}} (p(x, y) || p(x)p(y)) = \sum_{y \in Y} \sum_{x \in X} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}$$
여기서 $p(x, y)$는 두 확률분포 $X$와 $Y$의 결합분포, $p(x)$와 $p(y)$는 각각의 주변분포 그리고 $p(x)p(y)$는 $X$와 $Y$가 독립이라고 가정했을 때의 분포를 의미합니다. 여기서 유의할 점은 $\mathbb{I}(X, Y)$가 아닌 $\mathbb{I}(X; Y)$라고 써야한다는 점입니다. 왜냐하면 $X$나 $Y$가 여러변수들의 묶음으로 표현될 수 있기 때문입니다. 예를 들어, $\mathbb{I}(X; Y, Z)$인 경우 $X$와 $(Y, Z)$ 사이의 상호정보량을 의미하게 되는 것이죠. 만약, 연속확률변수라면 위의 합을 전부 적분으로 바꾸면 됩니다.
또한, 상호정보량의 수식은 사실 KL 발산을 기반으로 정의되어 있는 것을 볼 수 있습니다. 따라서, KL 발산의 중요한 성질 중 하나로 항상 0보다 크거나 같다는 점이 상호정보량에서도 그대로 적용되며 등호가 성립하려면 $p(x, y) = p(x)p(y)$여야합니다. 즉, 상호정보량이 0이라는 것은 결합분포가 주변분포의 곱과 동일하다는 의미이며 이는 $X$와 $Y$가 독립이라는 의미가 되죠. 따라서, 직관적으로 상호정보량은 실제 결합분포 $p(x, y)$와 완전히 독립일 때의 분포 $p(x)p(y)$ 사이의 거리 (KL 발산)으로 볼 수 있는 것이죠.
앞에서의 상호정보량을 엔트로피와 조건부 엔트로피를 이용하면 더욱 쉽게 이해해볼 수 있습니다. 일단, 상호정보량은 다음과 같은 식이 성립합니다.
$$\mathbb{I}(X; Y) = \mathbb{H}(X) - \mathbb{H}(X \mid Y) = \mathbb{H}(Y) - \mathbb{H}(Y \mid X)$$
여기서 $\mathbb{H}(X)$는 $X$의 엔트로피가 되고 $\mathbb{H}(X \mid Y)$는 $Y$를 알고 있을 때의 $X$의 조건부 엔트로피가 됩니다. 이 식은 상호정보량 $\mathbb{I}(X; Y)$를 $Y$가 관측된 뒤 $X$에 대한 불확실성이 얼마나 줄었는지로 해석할 수 있게 도와줍니다. 상호정보량이 항상 0보다 크거나 같다는 사실을 기반으로 $\mathbb{H}(X \mid Y) \ge \mathbb{X}$임을 알 수 있습니다. 이는 조건부 엔트로피는 항상 원래 엔트로피보다 작거나 같다는 새로운 방식의 증명도 해볼 수 있습니다.
또한, 상호정보량을 결합 엔트로피를 기반으로도 풀어서 설명해볼 수 있습니다.
$$\mathbb{I}(X; Y) = \mathbb{H}(X, Y) - \mathbb{H}(X \mid Y) - \mathbb{H}(Y \mid X)$$
여기서 $\mathbb{H}(X, Y)$는 $(X, Y)$의 결합 엔트로피이고 $\mathbb{H}(X \mid Y)$와 $\mathbb{H}(Y \mid X)$는 각각의 조건부 엔트로피를 의미합니다. 이때, $\mathbb{H}(X, Y) = \mathbb{H}(Y) + \mathbb{X \mid Y} = \mathbb{H}(X) + \mathbb{H}(Y \mid X) $라는 점을 활용하면 다음과 같이 식을 또 바꿀 수 있습니다.
$$\mathbb{I}(X; Y) = \mathbb{H}(X) + \mathbb{H}(Y) - \mathbb{H}(X, Y)$$
이는 각각의 불확실성의 합에서 둘을 함께 볼 때의 불확실성을 뺀 것을 의미하죠.

그림 6.4에서는 정보 다이어그램(Information Diagram)으로 요약해서 보여주고 있습니다.