지난 포스팅에서는 교차 엔트로피, 결합 엔트로피, 조건 엔트로피, 퍼플렉시티와 같은 기존 엔트로피의 확장된 개념에 대해서 알아보았습니다. 교차 엔트로피는 두 분포 $p$와 $q$ 사이의 차이를 측정하며 딥 러닝 분류 문제에서 손실함수로 널리 쓰입니다. 결합 엔트로피는 두 확률변수의 불확실성을 함께 측정하는 지표로 독립일 때는 합으로 상관성이 있으면 더 작아진다는 성질을 보여주었습니다. 조건부 엔트로피는 $X$를 관측한 뒤 남는 $Y$의 불확실성을 나타내며 평균적으로 관측을 통해 불확실성이 줄어든다는 점을 강조하였습니다. 마지막으로 퍼플렉시티는 $2^{\mathbb{H}(p)}$로 정의되며 예측의 난이도를 직관적으로 표현하는 척도로 특히 언어 모델의 품질 평가에서 자주 사용됩니다.
1. 연속 확률변수의 미분 엔트로피(Differential entropy for continuous random variables)
만약, $X$가 PDF $p(x)$를 가지는 연속 확률변수라면 적분이 존재한다고 가정했을 때 미분 엔트로피(differential entropy)는 다음과 같이 정의됩니다.
$$h(X) = -\int_{\mathcal{X}} p(x) \log p(x) \; dx$$
예를 들어 $X \sim U(0, a)$라면 $h(X) = -\int_{0}^{a} \frac{1}{a} \log \frac{1}{a} \; dx = \log a$가 됩니다. 주의할 점은 이산 확률변수와 달리 미분 엔트로피는 음수가 될 수도 있습니다. PDF의 특성 상 1보다 클 수도 있기 때문입니다. 예를 들어, $X \sim U(0, \frac{1}{8})$이라면 $h(X) = \log_{2} \frac{1}{8} = -3$이 됩니다.
미분 엔트로피를 이해하는 방법은 모든 실수 값이 유한한 정밀도로만 표현될 수 있다는 점을 인식하는 것입니다. 어떤 논문에 따르면 연속 확률변수 $X$의 $n$-비트 양자화의 엔트로피는 근사적으로 $h(X) + n$이 됩니다. 다시 예를 들어보겠습니다. $X \sim U(0, \frac{1}{8})$이라면 $X$의 이진 표현에서 소수점 오른쪽 3비트는 반두시 0입니다. 왜냐하면 모든 값들이 $\le \frac{1}{8}$이기 때문이죠. 따라서, $X$를 $n$비트 정확도로 표현하는 데 실제로는 $n - 3$ 비트가 요구되고 이는 위에서 계산한 $h(X) = -3$와 일치합니다.
2. 가우시안의 엔트로피(Entropy of a Gaussian)
$d$-차원의 가우시안의 엔트로피는 다음과 같이 같습니다.
$$\begin{align} h(\mathcal{N}(\mu, \Sigma)) &= \frac{1}{2} \ln |2\pi e \Sigma| \\ &= \frac{1}{2} \ln \left[ (2\pi e)^{d} |\Sigma| \right] \\ &= \frac{d}{2} + \frac{d}{2} \ln (2\pi) + \frac{1}{2} \ln |\Sigma| \end{align}$$
만약 1차원 가우시안이라면 $h(\mathcal{N}(\mu, \sigma^{2})) = \frac{1}{2} \ln [2\pi e \sigma^{2}]$이 됩니다.
3. 분산과의 관계(Connection with variance)
가우시안의 엔트로피는 수식을 보면 분산이 증가함에 따라서 증가합니다. 그러나 이것이 항상 성립하지는 않습니다. 예를 들어 -1과 +1에 중심을 둔 1차원 가우시안 두 개의 혼합을 생각해보겠습니다. 평균들을 더 멀리 떨어뜨려 -10과 +10으로 옮기면 전체 평균으로부터의 평균 거리가 커지므로 분산은 증가합니다. 그러나 샘플이 -10 근처 또는 +10 근처에 있을 것이라는 사실은 알 수 있지만 정확히 어디에 있는지는 여전히 불확실하기 떄문에 엔트로피는 크게 변하지 않고 거의 동일하게 유지됩니다.