지금까지 보았던 베이지안 접근법은 다양한 장점들이 있지만 계산적으로 매우 비용이 비쌉니다. 모델 $p(\mathcal{D} \mid \theta)$와 사전 분포 $p(\theta)$가 주어지면 베이즈 정리로 다음과 같이 파라미터 사후 분포를 얻을 수 있습니다. $$p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{\int p(\mathcal{D} \mid \theta) p(\theta) \; d\theta}$$ 그러나 위와 같은 식이 닫힌 형태로 식이 깔끔하게 떨어지는 것은 거의 불가능합니다. 이는 공액 사전-우도의 형태 그리고 모든 잠재변수가 유한 집합과 같이 특별히 단순한 사례를 제외하고는 정확한 계산이 불가능하거나 비..
지금까지 우리는 $p(\mathbf{y} \mid \theta)$ 형태의 조건이 없는(unconditional) 모델에 초점을 맞추어 설명하였습니다. 그러나 지도 학습에서는 입력 $\mathbf{x}$가 주어졌을 때 출력 $\mathbf{y}$를 예측해야하므로 $p(\mathbf{y} \mid \mathbf{x}, \theta)$와 같은 조건부(conditional) 모델을 사용해야합니다. 이 경우 모델 파라미터 $\theta$에 대한 사후 분포는 다음고 ㅏ같습니다. $$p(\theta \mid \mathcal{D})$$ 여기서 $\mathcal{D} = \{ (\mathbf{x}_{n}, \mathbf{y}_{n}) : n = 1: N \}$으로 $N$개의 데이터쌍으로 구성된 학습 데이터셋입니다. 사..
지금까지 저희는 베이지안 통계를 다루고 있습니다. 일반적으로 베이지안을 기반으로 하는 통계분석에서 사후 분포 $p(\theta \mid \mathcal{D})$는 보통 고차원이고 그 자체를 시각화하거나 다루기는 어렵습니다. 따라서, 보통은 점 추정치(사후 평균 및 사후 최빈값 등)을 제시하고 그 추정치의 불확실성을 정량화하기 위해 신용구간(credible interval)을 함께 제시합니다. 여기서 주의해야할 점은 베이지안의 신뢰구간은 빈도주의(Frequentist)의 신뢰구간(confidence interval)과 완전히 다른 개념임을 꼭 인지하셔야합니다. 1. 중앙 신용구간(Central Credible Interval; CCI)$100(1 - \alpha)%$ 신용구간 $C = (l, u)$는 다..
이전에 저희는 지수분포족에 속하는 공액 사전분포의 여러 가지 예들을 보았습니다. 공액 사전 확률분포는 1) 가상의 사전 데이터에서 얻은 충분통계량으로 직관적으로 해석할 수 있고 2) 계산이 간편하다는 장점으로 인해 적극적으로 활용됩니다. 그러나 대부분의 모델에서는 우도에 정확히 대응되는 지수분포족 사전 확률분포가 존재하지 않습니다. 설령 존재하더라도 공액이라는 조건이 모델링을 지나치게 제한할 수 있죠. 따라서, 이번에는 이러한 한계를 극복하기 위해 제안된 다양한 비공액 사전 확률분포들에 대해서 알아보도록 하겠습니다. 1. 비정보적 사전 분포(Noninformative Priors)사전 분포에 대한 제한을 두지 않고 가장 쉽게 활용할 수 있는 방법은 중요한 정보를 가지지 않는 사전 분포를 사용하면 됩니다..
안녕하세요. 지난 포스팅에서는 디리클레-멀티모달 모델을 이용해서 베이지안 통계를 배워보았습니다. 이번에는 가우시안 평균 $\mu$에 대한 사후분포를 유도해보는 과정을 알아보겠습니다. 여기서는 계산을 단순하게 하기 위해 분산 $\sigma^{2}$는 이미 알려져 있다고 가정하겠습니다. 분산까지 함께 추정하는 더 일반적인 경우는 향후에 더 자세히 알아보도록 하겠습니다. 일단 데이터셋 $\mathcal{D} = \{ y_{1}, \dots, y_{N} \}$이 주어진다고 가정하면 $\mu$에 대한 가우시안 함수의 우도함수는 다음과 같은 형태를 지니게 됩니다. $$p(\mathcal{D} \mid \mu) \propto \text{exp} \left( -\frac{1}{2\sigma^{2}} \sum_{n =..
안녕하세요. 지난 포스팅에서는 베르누이-베타 모델을 기반으로 베이지안 통계의 예시를 들어보았습니다. 오늘은 이를 조금 일반화시킨 디리클레-멀티모달 모델을 기반으로 베이지안 통계의 예시를 봐도록 하겠습니다. 기존에는 동전 던지기의 앞면이 나올 확률을 추정하는 거였다면 오늘은 주사위의 각 면이 나올 확률을 추정하는 것 입니다. 1. 우도(Likelihood)먼저 범주형 분포에서 추출한 이산 랜덤 변수 $Y \sim \text{Cat}(\mathbf{\theta})$를 생각해보겠습니다. 여기서, $\mathbf{\theta} = ( \theta_{1}, \dots, \theta_{C} )$는 $C$개의 범주 각각이 나올 확률을 의미합니다. $$\begin{align} p(\mathcal{D} \mid \m..
지난 포스팅에서 베이지안 통계에 대한 기본적인 개념에 대해서 알아보았습니다. 핵심은 사전 확률분포와 우도를 활용한 사후 확률분포의 추정을 수행하고 이를 기반으로 새로운 데이터에 대한 예측 분포를 구성하는 것 입니다. 이 과정애서 계산상의 편리를 위해 공액 사전 확률분포를 사용할 수 있음을 설명하였습니다. 오늘은 이를 더 자세하게 알아보기 위해 간단한 예제를 들고 와보았습니다. 베타-베르누이 모델(베타-이항분포 모델)을 기반으로 시작해보죠. 여기서 모형 이름은 베타-이항분포이지만 $\theta$ 자체는 베르누이 분포의 성공 확률로 정의되며 주변 확률분포가 베타-이항분포가 됩니다. 문제는 $N$번 문제를 던져서 앞면이 나오는 확률 $\theta \in [0, 1]$을 추정하고자 합니다. 여기서, $y_{n..
안녕하세요. 지금까지 저희는 데이터셋 $\mathcal{D}$로부터 파라미터 $\theta$를 추정하는 방법에 대해서 알아보았습니다. 대표적으로 MLE, ERM, 그리고 MAP가 있었죠. 하지만, 단순한 점 추정만으로는 해결되지 않는 문제들이 있습니다. 이러한 경우에는 추정치의 불확실성 자체를 모델링해야합니다. 통계학에서는 이러한 "파라미터에 대한 불확실성을 확률 분포로 표현"하는 과정을 추론(inference)라고 부르며 이를 체계적으로 다루는 분야가 바로 베이지안 통계(Bayesian Statistics)입니다. 여기서는 간단한 개념만 소개하고 향후에 더 자세한 내용을 설명하도록 하겠습니다. 사전 분포 $p(\theta)$는 데이터를 보기 전 파라미터 $\theta$에 대해 알고 있는 또는 가정하는..