1. 정의(Definition)
일반적으로 대부분의 기계학습 모델은 MLE나 ERM을 통해 훈련 데이터에서 손실을 최소화하도록 하는 파라미터를 추정합니다. 하지만, 이렇게 얻은 모델이 미래 데이터에서도 낮은 손실을 보장해주지는 않습니다. 이와 같이 훈련 데이터에서는 손실이 거의 0이지만 새로운 데이터에 대한 손실이 높은 현상을 과적합(overfitting)이라고 합니다.
간단한 예시를 들어보겠습니다. 어떤 동전이 앞면이 나올 확률을 추정하고 싶다고 가정하겠습니다. 만약, 동전을 $N = 3$번 던졌는데 모두 앞면이 나오면 지난 포스팅의 베르누이 분포의 MLE의 결과에 따라 $\hat{\theta}_{\text{mle}} = \frac{N_{1}}{N} = \frac{3}{3} = 1$입니다. 즉, 이 값을 그대로 이용하면 베르누이 분포 $\text{Ber}(y \mid \hat{\theta}_{\text{mle}})$로 예측하면 앞으로도 항상 앞면이 나온다는 결과를 얻게 됩니다. 하지만, 동전을 한번이라도 던져보셨다면 이러한 결과는 불가능합니다.
문제의 핵심은 모델이 훈련 데이터를 완벽히 설명할만큼 충분히 복잡하다는 것에 있습니다. 즉, 관측된 데이터 $N$개에 확률 질량을 100% 모두 할당해버리면 미래에 나타날 새로운 데이터에는 확률을 남겨두지 못하고 일반화 성능이 떨어지게 되는 것이죠.
이러한 과적합 문제를 해결하는 대표적인 방법이 바로 정규화(Regularization)입니다. 정규화는 손실함수(loss function) 또는 경험 위험(empirical risk)에 패널티 항을 추가하여 과도하게 복잡한 모델을 억제합니다. 기본적으로는 다음과 같은 손실함수를 따르게 됩니다.
$$\mathcal{L}(\theta ; \lambda) = \left[ \frac{1}{N} \sum_{n = 1}^{N} l(y_{n}, \theta ; x_{n}) \right] + \lambda C(\theta)$$
여기서 $\lambda \ge 0$은 복잡도 패널티의 강도를 조절하는 하이퍼파라미터(regularization parameter)이며 $C(\theta)$는 모델의 복잡도를 측정하는 항(complexity penalty)입니다.
가장 흔한 방법은 다음과 같이 패널티를 사전분포 $p(\theta)$의 음의 로그로 두는 것입니다. 즉, 다음과 같이 쓸 수 있겠죠.
$$\mathcal{L}(\theta ; \lambda) = - \frac{1}{N} \sum_{n = 1}^{N} p(y_{n} \mid x_{n}, \theta) - \lambda \log p(\theta)$$
여기서 $\lambda = 1$로 두고 $p(\theta)$를 적절히 스케일링하면 위 식을 다음과 같이 바꾸어서 쓸 수 있습니다.
$$\mathcal{L}(\theta ; \lambda) = - \left[ \sum_{n = 1}^{N} \log p(y_{n} \mid x_{n}, \theta) + \log p(\theta) \right] = -[ \log p(\mathcal{D} \mid \theta) + \log p(\theta)]$$
이를 최소화하는 것은 곧 다음 로그 사후분포를 최대화하는 것과 같습니다.
$$\hat{\theta} = \text{\argmax}_{\theta} \log p(\theta \mid \mathcal{D}) = \text{argmax}_{\theta} \left[ \log p(\mathcal{D} \mid \theta) + \log p(\theta) - \text{const} \right]$$
이 과정을 MAP 추정(Maximum A Posteriori estimation) 이라고 부릅니다. 즉, 사전 지식 $p(\theta)$과 데이터 $\mathcal{D}$를 함께 고려하여 가장 그럴듯한 파라미터 $\hat{\theta}$를 찾는 과정이죠.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.5 Regularization - 3) (2) | 2025.07.14 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.5 Regularization - 2) (1) | 2025.07.11 |
| [PML intro] Ch4 Statistics (Sec4.4 Other Estimation Methods - 2) (3) | 2025.07.09 |
| [PML intro] Ch4 Statistics (Sec4.4 Other Estimation Methods - 1) (1) | 2025.07.08 |
| [PML intro] Ch4 Statistics (Sec4.3 Empirical risk minimization (ERM)) (0) | 2025.07.08 |