지난 포스팅에서 베이지안 통계에 대한 기본적인 개념에 대해서 알아보았습니다. 핵심은 사전 확률분포와 우도를 활용한 사후 확률분포의 추정을 수행하고 이를 기반으로 새로운 데이터에 대한 예측 분포를 구성하는 것 입니다. 이 과정애서 계산상의 편리를 위해 공액 사전 확률분포를 사용할 수 있음을 설명하였습니다. 오늘은 이를 더 자세하게 알아보기 위해 간단한 예제를 들고 와보았습니다. 베타-베르누이 모델(베타-이항분포 모델)을 기반으로 시작해보죠. 여기서 모형 이름은 베타-이항분포이지만 $\theta$ 자체는 베르누이 분포의 성공 확률로 정의되며 주변 확률분포가 베타-이항분포가 됩니다. 문제는 $N$번 문제를 던져서 앞면이 나오는 확률 $\theta \in [0, 1]$을 추정하고자 합니다. 여기서, $y_{n..
안녕하세요. 지금까지 저희는 데이터셋 $\mathcal{D}$로부터 파라미터 $\theta$를 추정하는 방법에 대해서 알아보았습니다. 대표적으로 MLE, ERM, 그리고 MAP가 있었죠. 하지만, 단순한 점 추정만으로는 해결되지 않는 문제들이 있습니다. 이러한 경우에는 추정치의 불확실성 자체를 모델링해야합니다. 통계학에서는 이러한 "파라미터에 대한 불확실성을 확률 분포로 표현"하는 과정을 추론(inference)라고 부르며 이를 체계적으로 다루는 분야가 바로 베이지안 통계(Bayesian Statistics)입니다. 여기서는 간단한 개념만 소개하고 향후에 더 자세한 내용을 설명하도록 하겠습니다. 사전 분포 $p(\theta)$는 데이터를 보기 전 파라미터 $\theta$에 대해 알고 있는 또는 가정하는..
지난 포스팅에서는 딥 러닝에서도 거의 필수적으로 활용되는 가중치 감쇠 중 하나인 $l_{2}$ 정규화에 대해서 알아보았습니다. 핵심은 가중치들의 값이 너무 큰 값으로 학습되지 않고 골고루 학습될 수 있게 손실함수에 $C(w) = ||w||_{2}^{2}$을 더해주는 것입니다. 오늘은 정규화와 관련된 다양한 기법에 대해서 알아보도록 하겠습니다. 1. 검증 데이터셋을 이용한 정규화 기법 선택(Picking the Regularizer using a Validation Set)기본적으로 정규화의 세기를 조정하는 $\lambda$는 하이퍼파라미터로 데이터셋에 따라 적절하게 선택해주어야합니다. 만약, $\lambda$가 너무 작으면 혼련 손실을 더 중시하게 되어 과적합의 위험이 커지고 반대로 $\lambda$가..
정규화의 핵심은 정규화 항 $C(\theta)$를 어떻게 정의하느냐에 따라서 달라집니다. 지난 포스팅에서 보았던 MAP는 $C(\theta)$를 추정하고자 하는 파라미터에 대한 사전 정보 $p(\theta)$로 정의하는 방식이였죠. 물론 다른 방식으로 정의할 수도 있겠죠? 오늘은 정규화의 대표적인 방식 중 하나인 가중치 감쇠(Weight Decay)에 대해서 알아보도록 하겠습니다. 기본적으로 MLE 또는 ERM만으로 모델을 학습하게 되면 고차 다항식처럼 파라미터가 많은 모델이 쉽게 과적합됩니다. 가중치 감쇠 또는 $l_{2}$ 정규화는 파라미터의 크기 자체에 패널티를 걸어 모델이 지나치게 요동치는 것을 방지하는 방식입니다. 간단한 문제를 정의해보도록 하겠습니다. $N$개의 데이터 쌍으로 구성된 훈련 데..
이전 포스팅의 동전 던지기 예시를 통해 사전 정보를 기반으로 하는 정규화 기법인 MAP에 대해서 더 자세히 알아보도록 하겠습니다. 문제를 간단하게 만들기 위해서 한 번만 던졌을 때 앞면이 1회만 관측되면 MLE는 $\theta_{\text{mle}} = 1$입니다. 즉, "앞으로도 항상 앞면만 나온다"라고 예측을 하게 되겠죠. 이는 명백한 과적합 사례입니다. 이와 같이 극단적인 $\theta$값을 억제하기 위해서는 $\theta$에 대한 패널티를 부여해야합니다. 보통 베르누이 분포에서는 베타 분포를 사전 분포로 많이 활용합니다. 즉, $p(\theta) = \text{Beta}(\theta \mid a, b)$라고 두면 됩니다. 여기서, $a > 1$ 그리고 $b > 1$이라고 두면 베타 분포의 정의에..
1. 정의(Definition)일반적으로 대부분의 기계학습 모델은 MLE나 ERM을 통해 훈련 데이터에서 손실을 최소화하도록 하는 파라미터를 추정합니다. 하지만, 이렇게 얻은 모델이 미래 데이터에서도 낮은 손실을 보장해주지는 않습니다. 이와 같이 훈련 데이터에서는 손실이 거의 0이지만 새로운 데이터에 대한 손실이 높은 현상을 과적합(overfitting)이라고 합니다. 간단한 예시를 들어보겠습니다. 어떤 동전이 앞면이 나올 확률을 추정하고 싶다고 가정하겠습니다. 만약, 동전을 $N = 3$번 던졌는데 모두 앞면이 나오면 지난 포스팅의 베르누이 분포의 MLE의 결과에 따라 $\hat{\theta}_{\text{mle}} = \frac{N_{1}}{N} = \frac{3}{3} = 1$입니다. 즉, 이 값..
1. 정의(Definition)지난 포스팅에서는 다른 파라미터 추정 방식으로 적률추정법(MOM)에 대해서 알아보았습니다. 오늘은 다른 방식으로 온라인 추정(Online Estimation) 또는 재귀 추정(Recursive Estimation)에 대해서 알아보도록 하겠습니다. 기본적인 개념은 데이터가 실시간으로 입력된다고 가정했을 때 파라미터를 갱신하는 법을 의미합니다. 이를 이해하기 위해서는 배치(Batch) 학습과 온라인(Online) 학습의 차이부터 이해해야합니다. 배치학습은 학습을 시작하기 전에 모든 훈련 데이터셋 $\mathcal{D}$가 준비되어있고 온라인 학습은 끝없이 스트림 형태로 도착하여 $\mathcal{D} = \{ y_{1}, y_{2}, \dots \}$와 같이 관측치가 순차적으..
1. 적률추정법(The Method of Moments Estimation; MOM)가장 기본적인 모수 추정법이였던 MLE로 돌아가보겠습니다. 기본적으로 MLE는 $\nabla_{\theta} \text{NLL}(\theta) = 0$을 풀어야합니다. 이러한 미분 연산은 계산이 까다로운 경우가 많기 때문에 이를 완화하기 위해 적률추정법을 사용하여 더 쉽게 모수를 추정해볼 수 있습니다. 일단 "모멘트"라는 것은 이전 포스팅에서도 설명드렸습니다. 쉽게 이야기하면 데이터 분포의 형태를 숫자로 요약해주는 지표로 저희가 잘 알고 있는 평균과 분산은 각각 1차 모멘트 그리고 중심 2차 모멘트라고 불립니다. 3차 모멘트의 경우 왜도(Skewness)로 얼마나 치우쳐있는지 판단하지를 정량적으로 알 수 있습니다. 결국..