빈도주의 통계에서 샘플링 분포가 만들어내는 변동성을 이용해서 파라미터 추정치의 불확실성을 모델링할 수 있습니다. 파라미터 $\theta$에 대해 $100(1 - \alpha)$%의 신뢰구간(confidence intervel; CI)란 데이터셋 $\mathcal{D}$로부터 구간 추정량 $I(\mathcal{D}) = (l(\mathcal{D}), u(\mathcal{D}))$를 만들어 $\text{Pr}(\theta^{*} \in I(\tilde{\mathcal{D}}) \mid \tilde{\mathcal{D}} \sim \theta^{*}) \ge 1 - \alpha$를 만족하게 하는 구간을 의미합니다. 관례적으로는 $\alpha = 0.05$를 써서 95%의 신뢰구간을 제공하죠. 이는 여러 번 데이터를 다시 뽑아 신뢰구간을 계산하면 뽑은 데이터의 약 95%가 실제 파라미터 $\theta^{*}$를 포함하는 것을 의미합니다.
신뢰구간을 만드는 법에 대해서 알아보도록 하겠습니다. 일반적인 방법부터 소개하도록 하죠. 특정 추정량 $\hat{\theta} = \hat{\Theta}(\mathcal{D})$의 샘플링 분포에서 $\Delta = \theta^{*} - \hat{\theta}$의 $\frac{\alpha}{2}$와 $1 - \frac{\alpha}{2}$ 분위수 $(\delta, \bar{\delta})$를 구해 $\text{Pr}(\delta \le \Delta \le \bar{\delta}) = 1 - \alpha$로 구하면 됩니다. 정리하자면 다음과 같죠.
$$I(\mathcal{D}) = (L, U) = (\hat{\theta} + \delta, \hat{\theta} + \bar{\delta})$$
보통은 이전에 정리에 따라서 $\hat{\theta} \approx \mathcal{N}(\theta^{*}, \hat{\text{se}}^{2})$으로 가정하고 가우시안 근사를 통해 다음과 같이 구합니다.
$$I = (\hat{\theta} - z_{\frac{\alpha}{2}} \hat{\text{se}}, \hat{\theta} + z_{\frac{\alpha}{2}} \hat{\text{se}})$$
만약, 95%의 신뢰구간, 즉 $\alpha = 0.05$라면 $z_{\frac{\alpha}{2}} = 1.96 \approx 2$가 되어 $\theta \pm 2\hat{\text{se}}$로 기억합니다.
여기서 중요한 점은 이전 포스팅에서 보았던 베이즈 통계 관점의 신용구간과 빈도주의 통계 관점의 신뢰구간은 절대 혼동하면 안된다는 것 입니다. 기본적으로 빈도주의의 신뢰구간에서의 파라미터 $\theta$는 고정되어 있지만 알 수 없습니다. 그에 반해 베이즈 관점에서의 신용구간의 파라미터 $\theta$는 확률변수로 주어지지만 불확실성이 있습니다. 또한, 데이터 관점에서도 다르게 표현됩니다. 일반적으로 샘플링의 개념에서 접근하는 빈도주의의 특성 상 데이터셋 $\mathcal{D}$는 무작위로 변할 수도 있지만 베이즈 관점에서는 관측 후에는 항상 고정되어 있습니다.
핵심적으로 "95% 구간"은 서로 다른 방식으로 해석할 수 있습니다. 빈도주의에서는 신뢰구간을 만드는 절차가 무한히 반복될 때 그 구간들이 95%는 $\theta$를 포함한다는 것으로 해석하지만 베이즈 주의에서는 주어진 데이터셋 $\mathcal{D}$에서 $\theta$가 구간 안에 있을 확률이 95%라고 해석하게 되죠.
결론적으로 신뢰구간은 “이번 구간이 맞을 확률”이 아니라 “이 공식을 여러 번 쓰면 평균적으로 맞는 비율”일 뿐입니다. 이 차이를 잊으면 분석과 의사결정 모두에서 큰 착오가 생길 수 있습니다.