지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 1)에서는 상호정보량에 대해서 알아보았습니다. 이를 이해하는 방법으로 서로의 독립성을 가정했을 때와 가정하지 않았을 때의 결합분포들의 차이를 계산하는 방식을 설명드렸습니다. 즉, KL 발산의 응용으로 볼 수 있으며 KL 발산이 가지고 있는 가장 중요한 특성인 0보다 크거나 같다는 특성이 상호정보량에도 그대로 적용됩니다. 오늘은 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보도록 하겠습니다.
조건부 상호정보량은 다음과 같이 정의됩니다.
$$\mathbb{I}(X; Y \mid Z) = \mathbb{E}_{p(Z)} [\mathbb{I}(X; Y \mid Z)]$$
이를 해석해보면 각각의 $Z = z$에 대해서 그때의 $\mathbf{I}(X; Y \mid Z = z)$를 계산한 뒤 이를 $Z$에 대한 평균을 계산한 것으로 볼 수 있죠. 이를 상호정보량의 정의에 맞추어서 분포의 형태로 풀어서 쓰면 다음과 같습니다.
$$\mathbb{I}(X; Y \mid Z) = \mathbb{E}_{p(x, y, z)} [\log \frac{p(x, y \mid z)}{p(x \mid z) p(y \mid z)}]$$
여기서 $\mathbb{E}_{p(x, y, z)} [\cdot]$는 분포 $p(x, y, z)$에 대한 기대값을 계산하고 안쪽 로그는 “조건부 분포들이 독립일 때와 실제 결합분포의 차이”를 KL 형태로 비교한 것입니다. 이를 이전 포스팅에서 보았던 엔트로피의 형태로도 써보면 다음과 같습니다.
$$\begin{align} \mathbb{I}(X; Y \mid Z) &= \mathbb{H}(X \mid Z) + \mathbb{H}(Y \mid Z) - \mathbb{H}(X, Y \mid Z) \\ &= \mathbb{H}(X \mid Z) - \mathbb{H}(X \mid Y, Z) \\ &= \mathbb{H}(Y \mid Z) - \mathbb{H}(Y \mid X, Z) \\ &= \mathbb{H}(X, Z) + \mathbb{H}(Y, Z) - \mathbb{H}(Z) - \mathbb{H}(X, Y, Z) \\ &= \mathbb{I}(Y; X, Z) - \mathbb{I}(Y; Z) \end{align}$$
특히, 마지막 식을 직관적으로 해석해보면 조건부 상호정보량 $\mathbb{I}(X; Y \mid Z)$는 $Y$가 $(X, Z)$에서 얻은 전체 정보 $\mathbb{I}(Y; X, Z)$ 중에서 이미 $Z$만으로 알고 있던 정보 $\mathbb{I}(Y; Z)$를 빼고 남은 추가 정보임을 알 수 있죠. 즉, $Z$를 이미 알고 있을 때 $X$가 $Y$에 대해 더 알려주는 순수 추가 정보량이 바로 $\mathbb{I}(X; Y \mid Z)$입니다.
위 식을 다시 변형해보면 다음과 같이 쓸 수 있습니다.
$$\mathbb{I}(Z, Y \mid X) = \mathbb{I}(Z; X) + \mathbb{I}(Y; X \mid Z)$$
여기서 왼쪽 식은 $(Z, Y)$ 전체가 $X$에게 주는 정보를 의미하고 오른쪽 식은 $Z$가 $X$에 대해 주는 정보 $\mathbb{I}(Z; X)$가 됩니다. 그리고 $Z$를 알고 있다는 조건 하에서 $Y$가 추가로 주는 정보 $\mathbb{I}(Y; X \mid Z)$가 되죠. 이는 정보량도 조건부 확률과 같이 사슬 법칙 (Chain Rule)을 따른다는 것을 보여주고 있습니다. 이를 $N$개의 변수로 일반화하면 상보정보량에 대한 사슬 법칙이 됩니다.
$$\mathbb{I}(Z_{1}, \dots, Z_{N}; X) = \sum_{n = 1}^{N} \mathbb{I}(Z_{n}; X \mid Z_{1}, \dots, Z_{n - 1})$$
이를 다시 풀어서 해석해보면 여러 개의 변수 $Z_{1}, \dots, Z_{n}$이 있을 때 이 전체가 $X$에 대해 주는 총 정보량은 $Z_{1}$ 그다음 $Z_{2}$, ... 그다음 $Z_{N}$ 순서대로 앞까지 알았다는 조건하에서 새로 추가되는 정보량을 하나씩 더한 것과 같다는 것을 보여주고 있습니다.