지금까지 저희는 베이지안 통계를 다루고 있습니다. 일반적으로 베이지안을 기반으로 하는 통계분석에서 사후 분포 $p(\theta \mid \mathcal{D})$는 보통 고차원이고 그 자체를 시각화하거나 다루기는 어렵습니다. 따라서, 보통은 점 추정치(사후 평균 및 사후 최빈값 등)을 제시하고 그 추정치의 불확실성을 정량화하기 위해 신용구간(credible interval)을 함께 제시합니다. 여기서 주의해야할 점은 베이지안의 신뢰구간은 빈도주의(Frequentist)의 신뢰구간(confidence interval)과 완전히 다른 개념임을 꼭 인지하셔야합니다. 1. 중앙 신용구간(Central Credible Interval; CCI)$100(1 - \alpha)%$ 신용구간 $C = (l, u)$는 다..
이전에 저희는 지수분포족에 속하는 공액 사전분포의 여러 가지 예들을 보았습니다. 공액 사전 확률분포는 1) 가상의 사전 데이터에서 얻은 충분통계량으로 직관적으로 해석할 수 있고 2) 계산이 간편하다는 장점으로 인해 적극적으로 활용됩니다. 그러나 대부분의 모델에서는 우도에 정확히 대응되는 지수분포족 사전 확률분포가 존재하지 않습니다. 설령 존재하더라도 공액이라는 조건이 모델링을 지나치게 제한할 수 있죠. 따라서, 이번에는 이러한 한계를 극복하기 위해 제안된 다양한 비공액 사전 확률분포들에 대해서 알아보도록 하겠습니다. 1. 비정보적 사전 분포(Noninformative Priors)사전 분포에 대한 제한을 두지 않고 가장 쉽게 활용할 수 있는 방법은 중요한 정보를 가지지 않는 사전 분포를 사용하면 됩니다..
안녕하세요. 지난 포스팅에서는 디리클레-멀티모달 모델을 이용해서 베이지안 통계를 배워보았습니다. 이번에는 가우시안 평균 $\mu$에 대한 사후분포를 유도해보는 과정을 알아보겠습니다. 여기서는 계산을 단순하게 하기 위해 분산 $\sigma^{2}$는 이미 알려져 있다고 가정하겠습니다. 분산까지 함께 추정하는 더 일반적인 경우는 향후에 더 자세히 알아보도록 하겠습니다. 일단 데이터셋 $\mathcal{D} = \{ y_{1}, \dots, y_{N} \}$이 주어진다고 가정하면 $\mu$에 대한 가우시안 함수의 우도함수는 다음과 같은 형태를 지니게 됩니다. $$p(\mathcal{D} \mid \mu) \propto \text{exp} \left( -\frac{1}{2\sigma^{2}} \sum_{n =..
안녕하세요. 지난 포스팅에서는 베르누이-베타 모델을 기반으로 베이지안 통계의 예시를 들어보았습니다. 오늘은 이를 조금 일반화시킨 디리클레-멀티모달 모델을 기반으로 베이지안 통계의 예시를 봐도록 하겠습니다. 기존에는 동전 던지기의 앞면이 나올 확률을 추정하는 거였다면 오늘은 주사위의 각 면이 나올 확률을 추정하는 것 입니다. 1. 우도(Likelihood)먼저 범주형 분포에서 추출한 이산 랜덤 변수 $Y \sim \text{Cat}(\mathbf{\theta})$를 생각해보겠습니다. 여기서, $\mathbf{\theta} = ( \theta_{1}, \dots, \theta_{C} )$는 $C$개의 범주 각각이 나올 확률을 의미합니다. $$\begin{align} p(\mathcal{D} \mid \m..
지난 포스팅에서 베이지안 통계에 대한 기본적인 개념에 대해서 알아보았습니다. 핵심은 사전 확률분포와 우도를 활용한 사후 확률분포의 추정을 수행하고 이를 기반으로 새로운 데이터에 대한 예측 분포를 구성하는 것 입니다. 이 과정애서 계산상의 편리를 위해 공액 사전 확률분포를 사용할 수 있음을 설명하였습니다. 오늘은 이를 더 자세하게 알아보기 위해 간단한 예제를 들고 와보았습니다. 베타-베르누이 모델(베타-이항분포 모델)을 기반으로 시작해보죠. 여기서 모형 이름은 베타-이항분포이지만 $\theta$ 자체는 베르누이 분포의 성공 확률로 정의되며 주변 확률분포가 베타-이항분포가 됩니다. 문제는 $N$번 문제를 던져서 앞면이 나오는 확률 $\theta \in [0, 1]$을 추정하고자 합니다. 여기서, $y_{n..
안녕하세요. 지금까지 저희는 데이터셋 $\mathcal{D}$로부터 파라미터 $\theta$를 추정하는 방법에 대해서 알아보았습니다. 대표적으로 MLE, ERM, 그리고 MAP가 있었죠. 하지만, 단순한 점 추정만으로는 해결되지 않는 문제들이 있습니다. 이러한 경우에는 추정치의 불확실성 자체를 모델링해야합니다. 통계학에서는 이러한 "파라미터에 대한 불확실성을 확률 분포로 표현"하는 과정을 추론(inference)라고 부르며 이를 체계적으로 다루는 분야가 바로 베이지안 통계(Bayesian Statistics)입니다. 여기서는 간단한 개념만 소개하고 향후에 더 자세한 내용을 설명하도록 하겠습니다. 사전 분포 $p(\theta)$는 데이터를 보기 전 파라미터 $\theta$에 대해 알고 있는 또는 가정하는..
지난 포스팅에서는 딥 러닝에서도 거의 필수적으로 활용되는 가중치 감쇠 중 하나인 $l_{2}$ 정규화에 대해서 알아보았습니다. 핵심은 가중치들의 값이 너무 큰 값으로 학습되지 않고 골고루 학습될 수 있게 손실함수에 $C(w) = ||w||_{2}^{2}$을 더해주는 것입니다. 오늘은 정규화와 관련된 다양한 기법에 대해서 알아보도록 하겠습니다. 1. 검증 데이터셋을 이용한 정규화 기법 선택(Picking the Regularizer using a Validation Set)기본적으로 정규화의 세기를 조정하는 $\lambda$는 하이퍼파라미터로 데이터셋에 따라 적절하게 선택해주어야합니다. 만약, $\lambda$가 너무 작으면 혼련 손실을 더 중시하게 되어 과적합의 위험이 커지고 반대로 $\lambda$가..
정규화의 핵심은 정규화 항 $C(\theta)$를 어떻게 정의하느냐에 따라서 달라집니다. 지난 포스팅에서 보았던 MAP는 $C(\theta)$를 추정하고자 하는 파라미터에 대한 사전 정보 $p(\theta)$로 정의하는 방식이였죠. 물론 다른 방식으로 정의할 수도 있겠죠? 오늘은 정규화의 대표적인 방식 중 하나인 가중치 감쇠(Weight Decay)에 대해서 알아보도록 하겠습니다. 기본적으로 MLE 또는 ERM만으로 모델을 학습하게 되면 고차 다항식처럼 파라미터가 많은 모델이 쉽게 과적합됩니다. 가중치 감쇠 또는 $l_{2}$ 정규화는 파라미터의 크기 자체에 패널티를 걸어 모델이 지나치게 요동치는 것을 방지하는 방식입니다. 간단한 문제를 정의해보도록 하겠습니다. $N$개의 데이터 쌍으로 구성된 훈련 데..