지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 3)에서는 KL 발산를 최소화하는 것과 MLE는 사실 상 동일하다는 것을 간단한 방식으로 증명해보았습니다. 오늘은 forward KL과 backward KL에 대해서 알아보도록 하겠습니다.
시작하기에 앞서 왜 forward와 reverse KL의 개념이 생겼는지부터 이해해보겠습니다. KL 발산은 두 분포 사이의 차이를 측정해주는 도구로 널리 사용되기는 하지만 "거리(metric)"이라고는 볼 수 없습니다. 왜냐하면 $\mathcal{D}_{\mathbb{KL}} (p || q) \neq \mathcal{D}_{\mathbb{KL}}(q || p)$이기 때문이죠. 따라서, 어느방향에 대한 KL 발산을 계산하느냐에 따라서 $\mathcal{D}_{\mathbb{KL}} (p || q)$는 forward KL 또는 inclusive KL이라고 부르며 $\mathcal{D}_{\mathbb{KL}}(q || p)$는 reverse KL 또는 exclusive KL이라고 부릅니다. 이 두 KL 발산은 동일해보이는 듯 하지만 실제로는 전혀 다른 모양의 $q$를 얻게 됩니다.
forward KL을 수식으로 풀어서 써보면 $\mathcal{D}_{\mathbb{KL}} (p || q) = \int p(x) \log \frac{p(x)}{q(x)} \; dx$가 됩니다. 여기서 $q$에 대해 이 값을 최소화하는 것을 M-projection 또는 moment projection이라고 부릅니다. 간단한 직관을 얻어보도록 하겠습니다. 어떤 $x$에 대해 $p(x) > 0$인데 $q(x) = 0$인 경우를 생각해보겠습니다. 그러면 항 $\log \frac{p(x)}{q(x)}$는 분모가 0이 되므로 무한대로 발산하게 됩니다. 이는 $p(x) > 0$인데 $q(x) = 0$인 지점이 조금이라도 있다면 KL값이 엄청 커져버리게 되는 것이죠. 따라서, $\mathcal{D}_{\mathbb{KL}}(p || q)$를 줄이려면 $q$는 $p(x)$가 0이 아닌 모든 영역에서는 "적어도 조금이라도 확률질량을 가져야한다"라는 방식으로 최적화를 수행하게 되죠.
이러한 방식으로 인해 $q$는 zero-avoiding (0을 피하려는) 성향을 가지게 됩니다. 또한, $p$가 여러 개의 모드가 있다고 가정했을 때 $q$가 특정 모드만 커지고 나머지 모드에서는 0에 가까워져버리면 KL 발산값이 다시 커져버리기 때문에 $p$가 가지는 모드들을 모두 커버해버리려는 mode-covering 효과가 발생하게 되죠. 이로 인해 $q$의 분포 모양이 퍼지고 여러 모드를 전부 덮으려다보니 너무 넓게 커버해버리는 경향이 생깁니다.
이번에는 reverse KL을 수식으로 풀어서 써보면 $\mathcal{D}_{\mathbb{KL}} (q || p) = \int q(x) \log \frac{q(x)}{p(x)} \; dx$가 됩니다. 여기서 $q$를 최소화하는 것은 I-projection 또는 information projection이라고 부릅니다. forward KL과 마찬가지로 재미있는 직관을 얻어보도록 하겠습니다. 어떤 $x$에 대해서 $p(x) = 0$이지만 $q(x) > 0$인 경우를 가정해보겠습니다. 그러면 항 $\log \frac{q(x)}{p(x)}$는 분모가 0이 되어 이 역시 무한대로 발산하게 되죠. 따라서, $\mathcal{D}_{\mathbb{KL}} (q || p)$를 줄이기 위해서는 $p(x) = 0$인 곳에서는 $q(x)$도 반드시 0이 되어야하죠. 즉, reverse KL를 최소화하는 $q$는 $p(x)$가 0인 영역은 철저히 배제하려고 하고 그 결과로 인해 zero-forcing (0을 강제하는) 성향을 보이게 되는 것이죠.
그래서 $q$는 $p$가 넓게 퍼져있고 여러 개의 모드를 가져도 $q$는 그중에 가장 높은 모드 몇 개만 택하게 되는 현상을 보이는 mode-seeking이 발생하게 됩니다.

위 그림은 실제로 forward KL과 reverse KL의 차이를 보여주고 있습니다.