이번 포스팅부터는 주어진 데이터셋 $\mathcal{D}$를 바탕으로 어떤 가설(모형 및 모델)이 그럴듯한지에 대한 여부를 판단하는 방법인 가능도 비 검정(Likelihood Ratio Test; LRT)에 대해서 알아보도록 하겠습니다.
어떤 모형이 주어진 데이터를 잘 설명하는지 여부를 판단할 때 항상 "무엇과 비교해서"라는 질문을 던지는 것이 유용합니다. 딥 러닝에서만 예시를 들어봐도 어떤 모델 또는 알고리즘을 제안할 때 비교군들과 제안된 방법론 간의 비교를 통해서 하듯이 말이죠. 이를 빈도주의론적 관점에서 해석할 때는 두 가지 가설을 고려합니다. 이를 각각 귀무가설 $H_{0}$와 대립가설 $H_{1}$이 있다고 가정하고 어떤 쪽이 더 그럴듯한지를 선택하고자 합니다. 이는 $H \in \{ 0, 1 \}$이 "진짜" 모형의 정체성을 나타내는 이진 분류의 문제로 생각해볼 수 있습니다. 즉, $H = 0$이라면 귀무가설 $H_{0}$이 참이 되고 $H = 1$이라면 대립가설 $H_{1}$이 참이 되는 것이죠. 가장 직관적인 방법은 이전 포스팅에서 보았던 베이지안 관점의 접근방식을 통해 $p(H \mid \mathcal{D})$를 계산한 후 가장 확률이 높은 모형을 고르는 것입니다. 오늘은 빈도주의적인 접근을 다루어보도록 하겠습니다.
일단, 균등 사전분포를 가정하여 $p(H = 0) = p(H = 1) = 0.5$라고 하고 0-1 손실을 사용한다고 가정하면 최적의 의사결정 규칙은 "$\frac{p(\mathcal{D} \mid H_{0})}{p(\mathcal{D} \mid H_{1})} > 1$일 때 귀무가설 $H_{0}$"를 채택한다. 이를 가능도 비 검정이라고 부릅니다.
간단한 예시를 들어보겠습니다. 어떤 데이터가 평균이 $\mu_{0}$인 가우시안 분포로부터 왔는 지 아니면 평균이 $\mu_{1}$인 가우시안 분포로부터 왔는지 검정하고자 합니다. 편의를 위해 분산은 $\sigma^{2}$으로 동일하다고 가정하겠습니다.

그림 5.10(a)에서 볼 수 있듯이 $p(x \mid H_{0})$와 $p(x \mid H_{1})$을 그려서 표현해볼 수 있습니다. 이때, $H_{0}$는 데이터 $x$가 평균이 $\mu_{0}$인 가우시안 분포 모형에서 왔다는 가설이고 $H_{1}$는 데이터 $x$가 평균이 $\mu_{1}$인 가우시안 분포 모형에서 왔다는 가설입니다. 가우시안 우도를 고려하면 저희는 다음과 같이 우도 비율을 계산할 수 있습니다.
$$\begin{align} \frac{p(\mathcal{D} \mid H_{0})}{p(\mathcal{D} \mid H_{1})} &= \frac{\text{exp} \left( -\frac{1}{2\sigma^{2}} \sum_{n = 1}^{N} (x_{n} - \mu_{0})^{2} \right)}{\text{exp} \left( -\frac{1}{2\sigma^{2}} \sum_{n = 1}^{N} (x_{n} - \mu_{1})^{2} \right)} \\ &= \text{exp} \left( \frac{1}{2\sigma^{2}} (2N \bar{x} (\mu_{0} - \mu_{1}) + N\mu_{1}^{2} - N\mu_{0}^{2}) \right) \end{align}$$
여기서 $\bar{x}$는 데이터의 표본평균을 의미합니다. 따라서, 이 비율은 관측된 데이터 전체가 아니라 오직 데이터의 평균 $\bar{x}$에 의해서만 결정되는 것을 볼 수 있습니다. 왜냐하면 다른 값들인 이미 고정된 상수이기 때문이죠. 이는 그림 5.10. (a)에서도 볼 수 있다싶이 두 확률밀도 함수가 교차하는 점 $x^{*}$를 기준으로 $\frac{p(\mathcal{D} \mid H_{0})}{p(\mathcal{D} \mid H_{1})} > 1 \Leftrightarrow \bar{x} < x^{*}$가 성립하는 것을 볼 수 있습니다.
위와 같은 예시에서는 귀무가설 $H_{0}$과 대립가설 $H_{1}$의 매개변수가 완전히 주어져있거나 혹은 공유되어 있었습니다. 이런 경우를 단순 가설 검정(Simple Hypothesis Test)라고 부릅니다. 일반적으로 가설이 모든 매개변수를 완전히 특정하지 않을때도 있습니다. 이를 복합 가설 검정(Complex Hypothesis Test)라고 합니다. 이 경우에는 베이지안 접근방식처럼 알려지지 않은 매개변수를 적분으로 제거해야합니다. 왜냐하면 매개변수가 더 많을수록 가능도가 항상 더 커지기 때문이죠. 그러나 이는 계산적으로 어려울 수도 있고 사전분포의 잘못된 설정으로 인한 문제가 발생하기 쉽습니다.
이에 대한 대안으로 매개변수를 적분하지 않고 최대화하는 방법을 사용할 수 있습니다. 이를 최대가능도 비 검정(Maximum Likelihood Raio Test; MLRT)라고 합니다.
$$\frac{p(H_{0} \mid \mathcal{D})}{p(H_{1} \mid \mathcal{D})} = \frac{\int_{\theta \in H_{0}} p(\theta)p_{\theta}(\mathcal{D})}{\int_{\theta \in H_{1}} p(\theta) p_{\theta} (\mathcal{D})} \approx \frac{\text{max}_{\theta \in H_{0}} p_{\theta} (\mathcal{D})}{\text{max}_{\theta \in H_{1}} p_{\theta} (\mathcal{D})}$$