지금까지 저희는 베이지안 통계를 다루고 있습니다. 일반적으로 베이지안을 기반으로 하는 통계분석에서 사후 분포 $p(\theta \mid \mathcal{D})$는 보통 고차원이고 그 자체를 시각화하거나 다루기는 어렵습니다. 따라서, 보통은 점 추정치(사후 평균 및 사후 최빈값 등)을 제시하고 그 추정치의 불확실성을 정량화하기 위해 신용구간(credible interval)을 함께 제시합니다. 여기서 주의해야할 점은 베이지안의 신뢰구간은 빈도주의(Frequentist)의 신뢰구간(confidence interval)과 완전히 다른 개념임을 꼭 인지하셔야합니다.
1. 중앙 신용구간(Central Credible Interval; CCI)
$100(1 - \alpha)%$ 신용구간 $C = (l, u)$는 다음 조건을 만족하는 연속 구간을 의미합니다.
$$C_{\alpha}(\mathcal{D}) = (l, u) : P(l \le \theta \le u \mid \mathcal{D}) = 1- \alpha$$
위 조건을 만족하는 구간을 여러 개가 존재할 수도 있습니다. 따라서, 양쪽 꼬리에 동일하게 $(1 - \alpha) / 2$의 확률질량이 들어갈 수 있도록 선택하게 됩니다. 이를 중앙 신용구간이라고 부르죠. 여기서, 사후 분포의 CDF $F$와 역함수 $F^{-1}$을 알면 다음과 같이 쉽게 신용구간을 구할 수 있습니다.
$$\begin{cases} &l = F^{-1} (\frac{\alpha}{2}) \\ &u = F^{-1} (1 - \frac{\alpha}{2}) \end{cases}$$
예를 들어 설명해보겠습니다. 사후 분포 $p(\theta \mid \mathcal{D}) = \mathcal{D}(0, 1)$로 주어지고 $\alpha = 0.05$라고 할 때 다음과 같이 계산할 수 있습니다.
$$\begin{cases} &l = \Phi^{-1} (0.025) = -1.96 \\ &u = \Phi^{-1} (0.975) = 1.96 \end{cases}$$
여기서 $\Phi$는 표준 가우시안 분포의 CDF를 의미합니다. 이 결과 때문에 흔히 $\mu \pm 1.96 \sigma$의 형태로 구간을 많이 보고 합니다. 하지만, 역 CDF를 알 수 없는 경우도 많습니다. 이 경우에는 몬테카를로 근사를 통해 신용구간을 얻을 수 있습니다. 사후 분포에서 $S$개의 샘플 $\{ \theta^{(s)} \}_{s = 1}^{S}$를 샘플링합니다. 그리고 이 값들을 정렬하고 정렬된 리스트에서 $\frac{\alpha}{2}$ 백분위와 $1 - \frac{\alpha}{2}$ 백분위를 구해줍니다. 만약, $S \rightarrow \infty$라면 실제 분위수에 수렴합니다.
2. 최고 사후밀도 구간(Highest Posterior Density; HPD)
CCI만 고려하게 되면 문제점이 존재합니다. 중앙 구간 밖에 있더라도 내부보다 사후 확률이 더 높은 점이 있을 수도 있습니다. 이러한 문제를 해결하는 신용구간이 바로 최고 사후밀도 구간이라는 방식이 있습니다. 일단, 임계값 $p^{*}$을 찾아야합니다.
$$1 - \alpha = \int_{\theta : p(\theta \mid \mathcal{D}) > p^{*}} p(\theta \mid \mathcal{D}) \; d\theta$$
그리고 HPD는 다음과 같이 정의되죠.
$$C_{\alpha} (\mathcal{D}) = \{ \theta \mid p(\theta \mid \mathcal{D}) \ge p^{*} \}$$
1차원에서 HPD는 Highest Density Interval(HDI)라고도 불립니다.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 8) (3) | 2025.07.24 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 7) (0) | 2025.07.23 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 5) (0) | 2025.07.22 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 4) (0) | 2025.07.19 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 3) (2) | 2025.07.18 |