지금까지 다른 의사결정의 이론적 접근법에서는 $p(\mathcal{D} \mid H_{0})$와 $p(\mathcal{D} \mid H_{1})$을 계산할 수 있도록 귀무가설 $H_{0}$와 대립가설 $H_{1}$을 모두 명시해야했습니다. 그러나 어떤 경우에는 대립가설을 명확히 정의하기 어렵고 단순히 귀무가설이 데이터에 비추어 "그럴듯한지"를 검정하고 싶은 경우가 많습니다. 예를 들어서 귀무가설 $H_{0}$를 "동전은 공정하다"라고 한다면 앞면이 나올 확률은 $p = 0.5$로 지정하는 것과 동일합니다. 그에 반해 대립가설 $H_{1}$은 "동전이 치우쳐져있다"라고 한다면 앞면이 더 잘나오는 지 또는 뒷면이 더 잘나오는 지 특정하기 어렵습니다. 이 경우에는 "$p = 0.5$"라는 가설이 맞는지만 보고 싶을 수 있습니다. 다른 예시로 귀무가설 $H_{0}$로 "데이터가 가우시안 분포를 따른다"라고 하고 $H_{1}$을 "데이터가 가우시안 분포를 따르지 않는다"라고 한다면 과연 어떤 분포로 결정해야하는 지 명확하지 않아 가설 검정에 어려움이 생깁니다.
이와 같은 경우에 저희는 검정통계량(test statistic) $\text{test}(\mathcal{D})$를 정의하고 실제 데이터에서 관측된 값 $\text{test}(\mathcal{D})$를 귀무가설이 참일 때의 기댓값 $\text{test}(\tilde{\mathcal{D}})$과 비교합니다. 이때, $\tilde{\mathcal{D}} \sim H_{0}$입니다. 만약, 관측된 값이 $H_{0}$ 하에서 보기 힘든 값이라면 귀무가설을 기각합니다. 말로 하면 어려우니 이를 정량화해보도록 하겠습니다. 귀무가설 $H_{0}$이 참일 때 관측된 값 이상으로 큰 검정통계량이 나올 확률을 계산해야합니다. 이를 $p$-값이라고 하며 다음과 같이 계산합니다.
$$\text{pval} = \text{Pr}(\text{test}(\tilde{\mathcal{D}}) \ge \text{test}(\mathcal{D}) \mid \tilde{\mathcal{D}} \sim H_{0})$$
즉 $\text{pval} = \text{Pr}(\text{test}_{\text{null}} \ge \text{test}_{\text{obs}})$이고 여기서 $\text{test}_{\text{obs}} = \text{test} (\mathcal{D})$이고 $\text{test}_{\text{null}} = \text{test} (\tilde{\mathcal{D}})$입니다. 여기서 $p$-값이 작다는 것은 $H_{0}$에 반하는 강한 증거가 된다는 것을 반영합니다. 즉, 귀무가설이 맞다고 가정했을 때, 지금 내가 본 것만큼 극단적인 결과가 나올 확률을 의미합니다. 이는 $H_{0}$가 맞다고 해도 이런 결과는 거의 나오지 않는 다는 것을 의미합니다. 따라서, 귀무가설이 데이터와 잘 맞지 않으므로 기각할 증거가 된다는 것을 의미하죠.
전통적으로는 $p$-값이 $\alpha = 0.05$보다 작으면 귀무가설을 기각하는데 이 $\alpha$를 검정의 유의수준(significance level)이라고 합니다. 이 전체 과정을 귀무가설 유의성 검정(Null Hypothesis Significance Testing; NHST)라고 부릅니다. 이렇게 구성된 검정은 본질적으로 제 1종 오류율(귀무가설이 참인데 기각할 확률)이 $\alpha$가 되도록 만들어집니다.
또한, 이 의사결정 규칙은 임계값 $t^{*}$를 정해 $\text{Pr}(\text{test}(\tilde{\mathcal{D}}) \ge t^{*} \mid H_{0}) = \alpha$가 되도록 하는 것과 같습니다. 만약, $t^{*} = \text{test}(\mathcal{D})$라면 관측된 $p$-값이 바로 $\alpha$와 같아집니다. 따라서, $p$-값은 귀무가설을 기각할 수 있는 최소 유의수준입니다.
$\Phi$를 검정통계량의 표본분포의 CDF라고 가정했을 때 $\text{pval} = 1 - \Phi(\text{test}(\mathcal{D}))$로 계산할 수 있습니다. 이것을 단측 $p$-값이라고 부릅니다. 경우에 따라서 양측 $p$-값을 쓸 수도 있습니다. 이 경우에는 다음과 같이 계산할 수 있습니다.
$$\text{pval} = \text{Pr}(\text{test}(\tilde{\mathcal{D}}) \ge \text{test}(\mathcal{D}) \mid H_{0}) + \text{Pr}(\text{test}(\tilde{\mathcal{D}}) \le -\text{test}(\mathcal{D}) \mid H_{0}) $$
예를 들어 검정통계량을 $\text{test}(\tilde{\mathcal{D}}) = \frac{\hat{\theta}(\tilde{\mathcal{D}}) - \theta_{0}}{\hat{\text{se}}(\tilde{\mathcal{D}})}$라고 정의한다면 이를 Wald 통계량이라고 합니다. 이를 MLE의 점근적 정규성을 이용하면 다음과 같이 풀어서 쓸 수 있습니다.
$$\text{pval} = \text{Pr}(|\text{test}(\tilde{\mathcal{D}})| > | \text{test}(\mathcal{D}) | \mid H_{0}) \approx \text{Pr}(|Z| > |\text{test}(\mathcal{D})|) = 2\Phi(-|\text{test}(\mathcal{D})|)$$
이는 $p$-값을 계산하기 위해서는 귀무가설 하에서 검정통계량의 표본분포를 알아야한다는 것을 알 수 있습니다. 만약, 경험적 분포를 이론적 분포와 비교할 때는 표본이 크다면 위와 같은 방식으로 근사할 수 있습니다. 그렇지 않다면 비모수적 부트스트랩을 이용해서 근사할 수 있습니다. 다른 중요한 경우에는 두 경험적 분포가 같은 지 비교할 때 입니다. 이 경우에는 분포에 대한 가정이 필요없는 비모수적 순열검정(permutation test)를 사용할 수 있습니다.
예를 들어 $m$개의 샘플 $X_{i} \sim P_{X}$와 $n$개의 샘플 $Y_{i} \sim P_{Y}$가 있고 귀무가설이 $P_{X} = P_{Y}$라고 하겠습니다. 그리고 검정통계량을 $\text(X_{1}, \dots, X_{m}, Y_{1}, \dots, Y_{n}) = |\bar{X} - \bar{Y}|$라고 둔다면 샘플들의 순서가 바뀌더라도 귀무가설 하에서는 이 값이 변하지 않아야합니다. 따라서, 샘플을 무작위로 섞어 얻은 분포 $\text{\tilde{\mathcal{D}}}$를 통해 귀무가설 하의 분포를 근사하고 실제 데이터에서 얻은 $\text{test}(\mathcal{D})$가 꼬리부분에 얼마나 위치하는 지로 $p$-값을 추정할 수 있습니다.