정규화의 핵심은 정규화 항 $C(\theta)$를 어떻게 정의하느냐에 따라서 달라집니다. 지난 포스팅에서 보았던 MAP는 $C(\theta)$를 추정하고자 하는 파라미터에 대한 사전 정보 $p(\theta)$로 정의하는 방식이였죠. 물론 다른 방식으로 정의할 수도 있겠죠? 오늘은 정규화의 대표적인 방식 중 하나인 가중치 감쇠(Weight Decay)에 대해서 알아보도록 하겠습니다. 기본적으로 MLE 또는 ERM만으로 모델을 학습하게 되면 고차 다항식처럼 파라미터가 많은 모델이 쉽게 과적합됩니다. 가중치 감쇠 또는 $l_{2}$ 정규화는 파라미터의 크기 자체에 패널티를 걸어 모델이 지나치게 요동치는 것을 방지하는 방식입니다. 간단한 문제를 정의해보도록 하겠습니다. $N$개의 데이터 쌍으로 구성된 훈련 데..
이전 포스팅의 동전 던지기 예시를 통해 사전 정보를 기반으로 하는 정규화 기법인 MAP에 대해서 더 자세히 알아보도록 하겠습니다. 문제를 간단하게 만들기 위해서 한 번만 던졌을 때 앞면이 1회만 관측되면 MLE는 $\theta_{\text{mle}} = 1$입니다. 즉, "앞으로도 항상 앞면만 나온다"라고 예측을 하게 되겠죠. 이는 명백한 과적합 사례입니다. 이와 같이 극단적인 $\theta$값을 억제하기 위해서는 $\theta$에 대한 패널티를 부여해야합니다. 보통 베르누이 분포에서는 베타 분포를 사전 분포로 많이 활용합니다. 즉, $p(\theta) = \text{Beta}(\theta \mid a, b)$라고 두면 됩니다. 여기서, $a > 1$ 그리고 $b > 1$이라고 두면 베타 분포의 정의에..
1. 정의(Definition)일반적으로 대부분의 기계학습 모델은 MLE나 ERM을 통해 훈련 데이터에서 손실을 최소화하도록 하는 파라미터를 추정합니다. 하지만, 이렇게 얻은 모델이 미래 데이터에서도 낮은 손실을 보장해주지는 않습니다. 이와 같이 훈련 데이터에서는 손실이 거의 0이지만 새로운 데이터에 대한 손실이 높은 현상을 과적합(overfitting)이라고 합니다. 간단한 예시를 들어보겠습니다. 어떤 동전이 앞면이 나올 확률을 추정하고 싶다고 가정하겠습니다. 만약, 동전을 $N = 3$번 던졌는데 모두 앞면이 나오면 지난 포스팅의 베르누이 분포의 MLE의 결과에 따라 $\hat{\theta}_{\text{mle}} = \frac{N_{1}}{N} = \frac{3}{3} = 1$입니다. 즉, 이 값..
1. 정의(Definition)지난 포스팅에서는 다른 파라미터 추정 방식으로 적률추정법(MOM)에 대해서 알아보았습니다. 오늘은 다른 방식으로 온라인 추정(Online Estimation) 또는 재귀 추정(Recursive Estimation)에 대해서 알아보도록 하겠습니다. 기본적인 개념은 데이터가 실시간으로 입력된다고 가정했을 때 파라미터를 갱신하는 법을 의미합니다. 이를 이해하기 위해서는 배치(Batch) 학습과 온라인(Online) 학습의 차이부터 이해해야합니다. 배치학습은 학습을 시작하기 전에 모든 훈련 데이터셋 $\mathcal{D}$가 준비되어있고 온라인 학습은 끝없이 스트림 형태로 도착하여 $\mathcal{D} = \{ y_{1}, y_{2}, \dots \}$와 같이 관측치가 순차적으..
1. 적률추정법(The Method of Moments Estimation; MOM)가장 기본적인 모수 추정법이였던 MLE로 돌아가보겠습니다. 기본적으로 MLE는 $\nabla_{\theta} \text{NLL}(\theta) = 0$을 풀어야합니다. 이러한 미분 연산은 계산이 까다로운 경우가 많기 때문에 이를 완화하기 위해 적률추정법을 사용하여 더 쉽게 모수를 추정해볼 수 있습니다. 일단 "모멘트"라는 것은 이전 포스팅에서도 설명드렸습니다. 쉽게 이야기하면 데이터 분포의 형태를 숫자로 요약해주는 지표로 저희가 잘 알고 있는 평균과 분산은 각각 1차 모멘트 그리고 중심 2차 모멘트라고 불립니다. 3차 모멘트의 경우 왜도(Skewness)로 얼마나 치우쳐있는지 판단하지를 정량적으로 알 수 있습니다. 결국..
1. 정의(Definition)저희는 MLE를 보다 일반적인 형태로 더 확장할 수 있습니다. MLE는 기본적으로 NLL을 최소화하는 $\theta$를 찾는 것으로 아래의 식에 대한 최적화를 수행합니다. $$l(y_{n}, \theta; x_{n}) = -\log p(y_{n} \mid x_{n}, \theta)$$ 하지만, 반드시 로그 손실만 써야하는 법은 없습니다. 로그 손실대신 임의의 손실함수 $l(\cdot)$을 넣어도 동일한 틀은 유지하면서 다른 방식으로 최적화를 수행할 수 있습니다. 이렇게 하면 다음과 같이 경험적 위험(Empirical Risk)를 최소화하는 문제를 일반화할 수 있습니다. $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{n = 1}^{N} l(y_..
안녕하세요. 지난 포스팅에서는 이산확률분포에서 MLE를 적용하는 방법에 대해서 알아보았습니다. 오늘은 연속확률분포에서 MLE를 적용하는 예시를 보도록 하겠습니다. 1. 단변량 가우시안 분포의 MLE(MLE for the Univariate Gaussian)연속확률분포하면 역시 가우시안이죠. 그중에서도 단변량 가우시안 분포에 대한 MLE를 계산해보도록 하겠습니다. 간단하게 몇 가지 셋팅을 해보겠습니다! 관측 데이터 $Y$가 평균이 $\mu$이고 표준편차가 $\sigma$인 단변량 가우시안 분포를 따른다고 가정하겠습니다. 즉, $Y \sim \mathcal{N}(\mu, \sigma^{2})$인 것이죠. 그러면 저희의 목표는 $N$개의 관측 데이터 샘플들 $\mathcal{D} = \{y_{n} \mid ..
지난 포스팅에서는 MLE에 대한 간단한 정의와 베이지안 관점 그리고 경험적 분포 관점에서의 MLE에 대해서 알아보았습니다. 오늘은 두 가지 간단한 예시를 통해 이산확률분포에서의 MLE를 더 깊게 알아보도록 하겠습니다. 1. 베르누이 분포의 MLE(MLE for the Bernoulli distribution)이번에는 동전 던지기 문제를 통해 MLE를 직접 계산해보도록 하겠습니다. $Y$를 동전 던지기 결과를 표현하는 확률 변수라고 하겠습니다. 즉, $Y = 1$이라면 앞면을 의미하고 $Y = 0$이라면 뒷면을 의미합니다. 그리고 $\theta = p(Y = 1)$로 정의하여 앞면이 나올 확률, 즉 베르누이 분포의 파라미터로 정의하겠습니다. 이전 포스팅에서 보았던 NLL을 계산해보도록 하겠습니다. $$..