지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 6)에서는 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 알아보았습니다. 오늘은 이전에 잠깐 설명만 했던 충분통계량 (Sufficient Statistics)에 대해서 간단하게 한번 더 말씀드리도록 하겠습니다.
이전 포스팅의 데이터 처리 부등식의 중요한 결과를 생각해보도록 하겠습니다. 연쇄 마르코프 체인 $\theta \rightarrow \mathcal{D} \rightarrow s(\mathcal{D})$가 존재한다고 가정할 때 $\mathbb{I}(\theta; s(\mathcal{D})) \le \mathbb{I}(\theta; \mathcal{D})$라는 것입니다. 여기서 위 부등식이 등호로 성립한다면, 즉 $\mathbb{I}(\theta; s(\mathcal{D})) = \mathbb{I}(\theta; \mathcal{D})$라면 $s(\mathcal{D})$는 $\theta$를 추론하는 목적에서 데이터 $\mathcal{D}$의 충분통계량 (Sufficient Statistics)이라고 합니다. 이 경우에는 기존의 마르코프 체인의 순서를 변경하여 $\theta \rightarrow s(\mathcal{D}) \rightarrow \mathcal{D}$로 변경하여 쓸 수 있게 되죠. 이는 곧 $s(\mathcal{D})$를 알고 나면 $\theta$를 통해 데이터셋 $\mathcal{D}$를 복원할 수 있기 때문입니다.
충분통계량의 한 예는 아예 데이터 그 자체로 $s(\mathcal{D}) = \mathcal{D}$이지만 이는 데이터를 전혀 요약하지 못하므로 유용하지 않습니다. 그래서 저희는 최소 충분통계량 (Minimal Sufficient Statistic) $s(\mathcal{D})$를 다음과 같이 정의합니다.
- $s(\mathcal{D})$는 충분하고 (sufficient)
- $\theta$에 대해 쓸데없는 (extra) 정보를 더 담지 않는다. 즉, $s(D)$는 $\theta$ 예측에 필요한 정보를 잃지 않으면서 $\mathcal{D}$를 최대한 압축한 요약이다.
이를 조금 더 엄밀하게 정의해보자면 $s$가 $\mathcal{D}$의 최소 충분 통계량이 되려면 임의의 다른 충분통계량 $s^{'}(\mathcal{D})$에 대해 어떤 함수 $f$가 존재하여 $s(\mathcal{D}) = f(s^{'}(\mathcal(D)))$가 되어야합니다. 이는 최소 충분통계량은 "모든 충분통계량으로부터 함수로 얻어낼 수 있는 가장 압축된 형태"임을 의미합니다. 이를 마르코프 체인으로 연결해보면 $\theta \rightarrow s(\mathcal{D}) \rightarrow s^{'}(\mathcal{D}) \rightarrow \mathcal{D}$라고 쓸 수 있습니다. 여기서, $s^{'}(\mathcal{D})$는 $s (\mathcal{D})$에 중복 (redundant) 정보를 덧붙여 더 "큰" 요약을 만든 것으로 볼 수 있습니다. 따라서, $s (\mathcal{D}) \rightarrow s^{'} (\mathcal{D})$는 one-to-many 함수의 형태라고 볼 수 있습니다.
간단한 예를 들어보겠습니다. $N$번 베르누이 시행에 대한 최소 충분통계량은 $N$과 성공횟수 $N_{1} = \sum_{n} \mathbb{I}(X_{n} = 1)$입니다. 즉, 동전 던지기 앞/뒤 "전체순서"를 저장할 필요 없이 앞면의 개수만 알면 $\theta$ 추론에 필요한 모든 정보를 저장하는 것과 동일하기 때문이죠. 또한, 분산이 알려진 가우시안 분포의 평균을 추론할 때는 표본평균과 표본 수만 알면 됩니다.