지금까지 저희는 확률 모델의 모든 파라미터 $\theta$를 이미 알고 있다고 가정하였습니다. 이번 챕터부터는 데이터를 통해 이러한 확률 분포의 파라미터 $\theta$를 학습하는 방법에 대해서 알아보도록 하겠습니다.
데이터 $\mathcal{D}$로부터 $\theta$를 추정하는 과정을 모델 피팅(Model Fitting) 또는 학습(Training)이라고 하며, 이는 기계학습(Machine Learning; ML)의 핵심단계입니다. 데이터 $\mathcal{D}$에 대한 최적해 $\hat{\theta}$를 얻는 방법은 매우 다양하지만 결국 다음과 같은 최적화 문제로 귀결됩니다.
$$\hat{\theta} = \text{argmin}_{\theta} \mathcal{L}(\theta)$$
여기서 $\mathcal{L}(\theta)$는 손실함수(Loss Function) 또는 목적함수(Objective Function)을 의미합니다. 이 챕터에서 알아볼 것 중에 하나는 다양한 종류의 $\mathcal{L}(\theta)$이며 어떤 경우에 이 최적화 문제를 닫힌 형태 또는 해석적으로 풀 수 있는 지도 알아보도록 하겠습니다. 하지만, 대부분의 상황에서는 해석적인 결과를 얻을 수 없다는 점에 유의해주세요.
또한, 점 추정값 $\hat{\theta}$를 얻는 것 뿐만 아니라 이 추정값 $\hat{\theta}$에 대한 불확실성(신뢰도)을 정량화하는 방법도 살펴봅니다. 통계학에서는 유한한 표본으로부터 추정된 미지의 양에 대한 불확실성을 평가하는 과정을 추론(inference)이라고 부릅니다. 우리는 베이지안(Bayesian) 접근과 빈도주의(frequentist) 접근 두 가지 모두를 다룰 것입니다.
여기서 딥러닝 분야에서는 “추론”라는 용어를 우리가 여기서 예측(prediction)이라 부르는 개념, 즉, 이미 학습된 $\hat{\theta}$를 이용해 $p(y \mid \mathbf{x}, \theta)$를 계산하는 과정으로 사용하는 경우가 많습니다.