지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 3)에서는 상호정보량과 상관계수 사이의 관계성에 대해서 간단하게 알아보았습니다. 오늘은 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 알아보도록 하겠습니다.
어떤 응용에서는 두 변수의 의존성을 0과 1 사이로 정규화한 측정값이 있다면 유용합니다. 저희는 이전 포스팅에서 다음과 같은 결론을 얻었었습니다.
$$\begin{cases} \mathbb{I}(X; Y) &= \mathbb{H}(X) - \mathbb{H}(X \mid Y) \le \mathbb{H}(X) \\ \mathbb{I}(X; Y) &= \mathbb{H}(Y) - \mathbb{H}(Y \mid X) \le \mathbb{H}(Y) \end{cases}$$
따라서, $0 \le \mathbb{I}(X; Y) \le \text{min}(\mathbb{H}(X), \mathbb{H}(Y))$라는 결론을 얻을 수 있습니다. 이를 이용해서 정규화된 상호정보량을 다음과 같이 정의할 수 있습니다.
$$\text{NMI}(X, Y) = \frac{\mathbb{I}(X; Y)}{\text{min}(\mathbb{H}(X), \mathbb{H}(Y))} \le 1$$
이 정규화된 상보정보량은 항상 0과 1 사이의 값을 가지게 됩니다. 만약, $\text{NMI}(X, Y) = 0$이라면 $\mathbb{I}(X; Y) = 0$이고 $X$와 $Y$는 독립임을 의미합니다. 그리고 $\text{NMI}(X, Y) = 1$이고 $\mathbb{H}(X) < \mathbb{H}(Y)$라고 가정하면 다음과 같습니다.
$$\mathbb{I}(X; Y) = \mathbb{H}(X) - \mathbb{H}(X \mid Y) = \mathbb{H}(X) \Rightarrow \mathbb{H}(X \mid Y) = 0$$
따라서, $X$는 $Y$의 결정적 함수가 됩니다.