안녕하세요. 지금까지 저희는 데이터셋 $\mathcal{D}$로부터 파라미터 $\theta$를 추정하는 방법에 대해서 알아보았습니다. 대표적으로 MLE, ERM, 그리고 MAP가 있었죠. 하지만, 단순한 점 추정만으로는 해결되지 않는 문제들이 있습니다. 이러한 경우에는 추정치의 불확실성 자체를 모델링해야합니다. 통계학에서는 이러한 "파라미터에 대한 불확실성을 확률 분포로 표현"하는 과정을 추론(inference)라고 부르며 이를 체계적으로 다루는 분야가 바로 베이지안 통계(Bayesian Statistics)입니다. 여기서는 간단한 개념만 소개하고 향후에 더 자세한 내용을 설명하도록 하겠습니다.
사전 분포 $p(\theta)$는 데이터를 보기 전 파라미터 $\theta$에 대해 알고 있는 또는 가정하는 사전적인 정보를 의미합니다. 우도함수 $p(\mathcal{D} \mid \theta)$는 파라미터가 $\theta$라고 주어졌을 때 데이터셋 $\mathcal{D}$가 관측될 가능성을 나타냅니다. 그리고 베이즈 정리를 이용하면 사후 분포 $p(\theta \mid \mathcal{D})$를 구할 수 있죠.
$$p(\theta \mid \mathcal{D}) = \frac{p(\theta) p(\mathcal{D} \mid \theta)}{p(\mathcal{D})} = \frac{p(\theta) p(\mathcal{D} \mid \theta)}{\int p(\theta^{'}) p(\mathcal{D} \mid \theta^{'}) d \theta^{'}}$$
위 식에서 분자는 사전 분포 $p(\theta)$와 우도 $p(\mathcal{D} \mid \theta)$의 곱입니다. 분모 $p(\mathcal{D})$는 주변우도(marginal likelihood)라고 불리며 파라미터를 적분에 데이터셋만의 확률을 계산합니다. 이는 파라미터 $\theta$와는 독립적인 상수이므로 $\theta$ 값의 상대적인 확률을 계산할 때는 생략합니다.
이전 포스팅에서 COVID19 검사 예시로 베이즈 정리를 쓴 것을 기억하시나요? 다른 점은 여기서는 ‘환자의 감염 여부’ 대신 ‘통계 모델의 파라미터’를 추론하며, 보통 단일 관측 대신 관측 집합 $\mathcal{D}$에 조건을 부여한다는 점입니다. 여기서 지도 학습 모델일 경우에는 $\mathcal{D} = \{ (x_{n}, y_{n}) \mid n = 1, \dots, N \}$이고 비지도 학습 모델인 경우에는 $\mathcal{D} = \{ (y_{n}) \mid n = 1, \dots, N\}$이 됩니다.
마지막 단계는 예측 단계로 사후 예측분포(Posterior Predictive Distribution)을 계산해야합니다. 사후 분포를 얻었다면 새 입력 데이터 $x$에 대한 출력 $y$의 예측분포를 구할 수 있습니다. 가능한 모든 미지의 $\theta$를 다시 적분해 모델을 평균하죠.
$$p(y \mid x, \mathcal{D}) = \int p(y \mid x, \theta) p(\theta \mid \mathcal{D}) d \theta $$
이를 베이즈 모델 평균화(Bayes Model Averaging, BMA) 라고도 부르며, 사실상 각 $\theta$에 대한 무한히 많은 모델을 확률 가중치로 평균 내 예측하는 셈입니다. BMA 덕분에 단일 최적 모델만 사용하는 것보다 과적합 위험이 줄어든다는 장점이 있습니다.
베이지안 추론의 가장 큰 장벽은 사후분포를 적분으로 계산해야한다는 점입니다. 이로 인해 2000년대 초반부터 중반까지 가장 중요한 생성모델 중 하나인 Variational AutoEncoder의 효율적인 계산방식이 제안되었습니다. 그런데 어떤 사전확률분포-우도함수의 짝은 사후분포를 닫힌 형태로 쉽게 구할 수 있습니다! 이때 쓰는 사전분포를 공액 사전분포(Conjugate priors)라고 부릅니다.
즉, 사전 확률분포 $p(\theta)$가 속한 분포족 $\mathcal{F}$에 대해 우도 $p(\mathcal{D} \mid \theta)$로 업데이트한 사후분포 $p(\theta \mid \mathcal{D})$가 동일한 분포족 $\mathcal{F}$에 속할 때 $p(\theta)$를 공액 사전분포라고 부릅니다. 조금 어렵게 쓰면 $p(\theta \mid \mathcal{D}) \in \mathcal{F}$이면 $p(\theta) \in \mathcal{F}$는 $p(\mathcal{D} \mid \theta)$에 대한 공액 사전분포입니다. 이는 사전 확률분포만 잘 설정하면 크게 기존의 확률 분포를 재활용하여 지속적으로 $\mathcal{F}$에서 닫힌 형태로 표현할 수 있다는 점에서 핵심적인 개념입니다. 특히, 분포족 $\mathcal{F}$가 지수족에 속한다면 충분통계량·자연파라미터 형태 덕분에 적분과 정규화 상수를 손으로 계산할 수 있어 공액 구조가 특히 잘 작동합니다.
결국 각 쌍마다 “사전 파라미터 + 데이터 요약” → “사후 파라미터” 가 간단한 덧셈·곱셈으로 끝나므로, 복잡한 수치 적분이나 MCMC 없이도 즉석에서 사후분포를 얻을 수 있습니다. 이는 세가지 측면에서 큰 이득이 있습니다. 1) 속도 — 대규모 데이터에도 실시간 추론 가능해지고 2) 해석 용이성 — 업데이트 규칙이 숫자 몇 개로 요약할 수 있으며 3) 교육적 가치 — 베이지안 사고방식·충분통계 개념을 직관적으로 체험할 수 있게 됩니다.
물론 현실 문제의 우도 분포가 “공액”이 아닐 때도 많습니다. 그 경우는 이후에 등장할 근사 추론(변분, MCMC 등) 기법을 사용합니다. 하지만 공액 쌍은 베이지안 통계의 기본기이자, 가능할 때 가장 간단한 해결책임을 기억해 두세요.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 3) (2) | 2025.07.18 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 2) (1) | 2025.07.17 |
| [PML intro] Ch4 Statistics (Sec4.5 Regularization - 4) (0) | 2025.07.15 |
| [PML intro] Ch4 Statistics (Sec4.5 Regularization - 3) (2) | 2025.07.14 |
| [PML intro] Ch4 Statistics (Sec4.5 Regularization - 2) (1) | 2025.07.11 |