이전에 저희는 지수분포족에 속하는 공액 사전분포의 여러 가지 예들을 보았습니다. 공액 사전 확률분포는 1) 가상의 사전 데이터에서 얻은 충분통계량으로 직관적으로 해석할 수 있고 2) 계산이 간편하다는 장점으로 인해 적극적으로 활용됩니다. 그러나 대부분의 모델에서는 우도에 정확히 대응되는 지수분포족 사전 확률분포가 존재하지 않습니다. 설령 존재하더라도 공액이라는 조건이 모델링을 지나치게 제한할 수 있죠. 따라서, 이번에는 이러한 한계를 극복하기 위해 제안된 다양한 비공액 사전 확률분포들에 대해서 알아보도록 하겠습니다.
1. 비정보적 사전 분포(Noninformative Priors)
사전 분포에 대한 제한을 두지 않고 가장 쉽게 활용할 수 있는 방법은 중요한 정보를 가지지 않는 사전 분포를 사용하면 됩니다. 이를 비정보적 사전 분포라고 하죠. 이는 모델링하는 대상에 대해 사전 지식이 거의 없거나 전혀 없는 경우에 데이터가 가진 정보만으로 추론이 이루어지길 원할 때 활용합니다. 이러한 모델링 기법을 통해 "데이터가 스스로 말하게"되는 결과를 얻을 수 있죠.
가장 대표적인 방법이 위치 파라미터에 대한 균등 사전 확률분포를 사용하는 방법입니다. 실수 값을 갖는 위치 모수 (평균) $\mu \in \mathbb{R}$을 추정한다고 가정하겠습니다. 사전 지식이 없다면 $p(\mu) \propto 1$처럼 전 구간에서 동일한 확률밀도를 갖는 균등 확률 분포를 사용하는 것이죠 직관적으로 이는 “폭이 무한히 넓은 가우시안”으로 이해할 수 있습니다.
안타깝게도 완전히 객관적인(uninformative) 사전은 존재하지 않습니다. 어떤 형태를 취하든, 사전분포는 어딘가에 (암묵적이든 명시적이든) 지식을 담고 있습니다. 따라서, 최근에는 넓게 퍼진 사전(diffuse prior), 최소 정보 사전(minimally informative prior), 기본 사전(default prior)와 같은 용어들을 더 선호한다고 합니다.
2. 계층적 사전 분포(Hierarchical priors)
베이지안 모델에서는 파라미터 $\theta$에 대한 사전 분포 $p(\theta)$를 지정해야합니다. 여기서 사전 분포들의 파라미터들은 하이퍼파라미터라고 불립니다. 예를 들어, 베타분포라고 가정한다면 $a$와 $b$를 어떻게 설정하는 지에 따라 그 사후 분포의 모양이 조금씩 달라졌던 것을 기억하실 겁니다. 그 경우 $a$와 $b$가 하이퍼파라미터가 되는 것이죠. 이를 $\xi$라고 부르도록 하겠습니다.
그런데 하이퍼파라미터에 대한 정보가 부족한 경우가 많습니다. 이 경우에 하이퍼파라미터에 대한 또 다른 사전 분포를 부여할 수 있죠. 이렇게 층을 쌓아 올린 구조를 계층적 베이지안 모델(Hierarchical Bayesian Modle; HBM) 또는 다층 모델(Multi-level Model)이라고 부릅니다. 이 흐름을 화살표로 그리면 다음과 같습니다.
$$\xi \rightarrow \theta \rightarrow \mathcal{D}$$
즉, 하이퍼파라미터 $\xi$의 분포로 $\theta$가 결정되고 이 $\theta$의 분포로 인해 $\mathcal{D}$가 결정된다는 의미입니다. 이제 하이퍼파라미터 분포 $p(\xi)$이 포함된 계층적 모델의 결합분포 $p(\xi, \theta, \mathcal{D})$는 다음과 같이 적을 수 있습니다.
$$p(\xi, \theta, \mathcal{D}) = p(\xi)p(\theta \mid \xi)p(\mathcal{D} \mid \theta)$$
이는 $\theta$를 마치 하나의 데이터처럼 다루어 하이퍼파라미터 $\xi$를 학습할 수 있게 합니다. 특히, 서로 **관련 있는 여러 모수(예: 서로 다른 하위집단, 여러 작업(task))**를 동시에 추정할 때 특히 유용합니다.
3. 경험적 사전 분포(Empirical priors)
계층적 사전 분포에서는 HBM을 통해 하이퍼파라미터 $\xi$를 데이터로부터 추론하는 방법에 대해서 알아보았습니다. 하지만, 공동 사후분포 $p(\theta, \xi \mid \mathcal{D})$를 그대로 추정하려면 적분과 샘플링 비용이 매우 커진다는 단점이 있습니다. 이번에는 이러한 계산비용을 줄이는 방법에 대해서 알아보겠습니다.
핵심 아이디어는 하이퍼파라미터 $\xi$에 대해서 먼저 "점 추정"을 수행하여 $\hat{\xi}$를 구합니다. 다음으로 조건부 사후분포 $p(\theta \mid \hat{\xi}, \mathcal{D})$만 계산하는 것이죠. 즉, 원래 풀어야 할 2단계 통합 문제를 “하나의 최적화 + 하나의 사후 계산”으로 단순화합니다.
첫번째 단계부터 보도록 하죠. 하이퍼파라미터 $\xi$에 대한 점 추정을 수행하려면 주변우도를 최대화해야합니다.
$$\hat{\xi}_{\text{mml}} (\mathcal{D}) = \text{argmax}_{\xi} p(\mathcal{D} \mid \xi) = \text{argmax}_{\xi} \int p(\mathcal{D} \mid \theta) p(\theta \mid \xi) \; d\xi$$
이 방식을 Type II Maximum Likelihood(ML‑II) 또는 잠재변수 최대우도라고도 부릅니다. 일반적인 MLE 방식이 파라미터 $\theta$를 최적화하는 반면 ML-II는 하이퍼파라미터 $\xi$를 최적화한다는 점이 다릅니다. 다음 단계는 하이퍼파라미터 $\hat{\xi}$를 고정하고 조건부 사후 분포를 계산하면 됩니다.
$$p(\theta \mid \hat{\xi}, \mathcal{D})$$
지금까지 보았던 이 방식을 경험적 베이지안(Empirical Bayes)이라고 부릅니다. 이는 사전 분포의 파라미터 $\xi$를 데이터로부터 직접 추정하기 때문이죠. 순수 베이지안 철학에서 “사전은 데이터와 독립적이어야 한다”는 원칙을 엄밀히 지키진 못합니다. 그러나 계층적 베이지안의 완전한 적분을 수행하는 것보다 저렴한 근사로 볼 수 있습니다.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 7) (0) | 2025.07.23 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 6) (0) | 2025.07.22 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 4) (0) | 2025.07.19 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 3) (2) | 2025.07.18 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 2) (1) | 2025.07.17 |