지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 5)에서는 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 설명해보도록 하겠습니다.
어떤 미지의 변수 $X$가 있고 저희는 그에 대한 잡음 섞인 관측값 $Y$를 본다고 가정하겠습니다. 이제 이 잡음이 섞인 관측값 $Y$를 어떤 방식으로든 가공(processing)헤서 새로운 변수 $Z$를 만들면 직관적으로 $X$에 대해 알고 있는 정보가 더 늘어날 수는 없다고 느껴집니다. 이 사실을 데이터 처리 부등식이라고 합니다. 이를 엄밀하게 작성하면 다음과 같습니다.
정리1. 데이터 처리 부등식 (Data Processing Inequality)
$X \rightarrow Y \rightarrow Z$가 마르코프 체인(Markov Chain)을 이룬다고 가정하자. 즉, $X ⊥ Z \mid Y$ ($Y$가 주어지면 $X$와 $Z$는 조건부 독립임을 가정)일 때 $\mathbb{I}(X; Y) \ge \mathbb{I}(X; Z)$가 성립한다.
상호정보량의 사슬법칙을 활용하면 $\mathbb{I}(X; Y, Z)$를 두 가지 방식으로 전개할 수 있습니다.
$$\begin{cases} \mathbb{I}(X; Y, Z) &= \mathbb{I}(X; Z) + \mathbb{I}(X; Y \mid Z) \\ \mathbb{I}(X; Y, Z) &= \mathbb{I}(X; Y) + \mathbb{I}(X; Z \mid Y) \end{cases}$$
이때, $X \perp Z \mid Y$임을 가정했기 때문에 $\mathbb{I}(X; Z \mid Y) = 0$이 됩니다. 따라서, 전개된 두 식을 같다고 놓으면 $\mathbb{I}(X; Z) + \mathbb{I}(X; Y \mid Z) = \mathbb{I}(X; Y)$를 얻을 수 있습니다. 또한, 조건부 상호정보량은 항상 0 이상이기 때문에 $\mathbb{I}(X; Y \mid Z) \ge 0$이 되므로 $\mathbb{I}(X; Y) \ge \mathbb{I}(X; Z)$가 성립합니다.