안녕하세요. 지금까지 저희는 베이즈 관점의 통계를 넘어 빈도주의 관점의 통계까지 확인해보고 있습니다. 여기서 두 관점의 가장 큰 차이는 데이터의 무작위성 유무입니다. 베이즈 관점에서는 관측된 데이터에 대해서는 고정되어 이를 기반으로 파라미터를 추정하게 됩니다. 이에 반해 빈도주의 통계에서는 데이터셋 $\mathcal{D}$를 확률 변수로 취급합니다. 즉, 데이터셋 $\mathcal{D}$를 만드는 파라미터 $\theta^{*}$는 알지못하지만 이를 기반으로 샘플링되어 데이터셋을 만든다는 의미가 되어 $\mathcal{D} \sim p^{*}(\mathcal{D})$라고 할 수 있습니다. 따라서, 샘플링된 데이터에 의해 결정되는 추정치 $\hat{\theta} (\mathcal{D})$ 역시 확률 변수로 취급할 수 있으므로 다음과 같이 쓸 수 있습니다.
$$\hat{\theta} (\mathcal{D}) \sim p^{*} (\hat{\theta}(\mathcal{D}))$$
이를 저희는 샘플링 분포라고 불렀죠. 여기서, 샘플링 분포의 핵심적인 두 가지 특성이 존재합니다. 바로 편향(bias)와 분산(variance)이죠. 편향은 평균적으로 얼마나 빗나가는가?를 측정하며 분산은 추정치가 얼마나 요동치는가?를 측정합니다. 이는 편향과 분산을 둘 다 줄이면 평균적으로 덜 빗나가며 덜 요동치는 모델을 할 수 있다는 것을 의미하죠. 하지만, 일반적으로 편향을 줄이면 분산이 증가하고 반대로 분산을 줄이고 편향이 증가하는 트레이드 오프 관계가 존재합니다. 이것이 기계학습 및 통계 기반 모델 선택에서 가장 어려운 고민 중 하나 입니다.
1. 추정량의 편향(Bias of an Estimator)
빈도주의 통계에서 추정량의 가장 기본적인 성능 지표 중 하나가 바로 편향으로 다음과 같이 정의됩니다.
$$\text{bias}(\hat{\theta}(\cdot)) = \mathbb{E} \left[ \hat{\theta}(\mathcal{D}) \right] - \theta^{*}$$
여기서 $\mathbb{E} [\cdot]$은 자연이 데이터를 생성한다고 가정할 때 분포 $p(\mathcal{D} \mid \theta^{*})$에 대한 기댓값을 의미합니다. 여기서 편향이 0이라면 불편추정량(unbiased estimator)라고 부르죠.
가우시안 분포를 예시로 들어 설명해보도록 하겠습니다. 가우시안 분포 $x_{n} \sim \mathcal{N}(\mu, \sigma^{2})$에서 평균 $\mu$의 MLE는 표본평균으로 $\hat{\mu} = \frac{1}{N} \sum_{n = 1}^{N} x_{n} = \bar{x}$가 됩니다. 이제, 편향을 계산해보도록 하겠습니다. 여기서 저희는 $\hat{\theta} (\cdot)$을 아예 MLE로 설명했기 때문에 $\hat{\theta}(\mathbf{X}) = \bar{x}$가 됩니다.
$$\text{bias}(\hat{\mu}) = \mathbb{E} \left[ \bar{x} \right] - \mu = \frac{N\mu}{N} - \mu = 0$$
따라서, $\hat{\mu}$는 불편추정량입니다. 이번에는 가우시안 분포의 분산을 보도록 하겠습니다. 가우시안 분포의 분산 $\sigma^{2}$의 MLE 역시 평균과 동일하게 표본분산 $\sigma^{2}_{\text{mle}} = \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \bar{x})$으로 구할 수 있습니다. 그런데 표본분산에 대한 편향을 구하는 과정은 꽤나 복잡합니다. 하나씩 해보도록 하죠.
먼저 각 관측치 $x_{n} \sim \mathcal{N}(\mu, \sigma^{2})$이 모두 I.I.D 가정을 따른다고 가정하겠습니다. 기본적인 아이디어는 샘플 분산의 기댓값을 평균을 이용해 두 항으로 분해하는 것 입니다.
$$\begin{align} \sum_{n = 1}^{N} (x_{n} - \bar{x})^{2} &= \sum_{n = 1}^{N} \left[ (x_{n} - \mu) - (\bar{x} - \mu) \right]^{2} \\ &= \sum_{n = 1}^{N} (x_{n} - \mu)^{2} - 2(\bar{x} - \mu)\sum_{n = 1}^{N} (x_{n} - \mu) + N(\bar{x} - \mu)^{2} \\ &= \sum_{n = 1}^{N} (x_{n} - \mu)^{2} - 2(\bar{x} - \mu) \left[ N(\bar{x} - \mu) \right] + N(\bar{x} - \mu)^{2} \\ &= \sum_{n = 1}^{N} (x_{n} - \mu)^{2} - 2N(\bar{x} - \mu)^{2} + N(\bar{x} - \mu)^{2} \\ &= \sum_{n = 1}^{N} (x_{n} - \mu)^{2} - N(\bar{x} - \mu)^{2} \end{align}$$
따라서, $\sigma^{2}_{\text{mle}} = \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \bar{x}) = \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \mu)^{2} - (\bar{x} - \mu)^{2}$이 됩니다. 여기서 첫번째 항을 풀어보겠습니다. 각 관측 데이터 $x_{n} \sim \mathcal{N}(\mu, \sigma^{2})$이므로 $x_{n} - \mu \sim \mathcal{N}(0, \sigma^{2})$이 됩니다. 따라서, $(x_{n} - \mu)^{2}$의 기댓값은 $\sigma^{2}$이 되므로 $\mathbb{E} \left[\frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \mu)^{2} \right] = \frac{1}{N} \cdot N\sigma^{2} = \sigma^{2}$이 됩니다.
이제 두번째 항을 풀어보겠습니다. $\bar{x} \sim \mathcal{N}(\mu, \frac{\sigma^{2}}{N})$이므로 $\mathbb{E} \left[ (\bar{x} - \mu)^{2} \right] = \mathbb{V} \left[ \bar{x} \right] = \frac{\sigma^{2}}{N}$이 됩니다. 따라서, 최종적으로 가우시안 분포의 분산에 대한 MLE인 $\sigma^{2}_{\text{mle}}$의 편향은 다음과 같습니다.
$$\begin{align} \mathbb{E} \left[ \sigma^{2}_{\text{mle}} \right] &= \mathbb{E} \left[ \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \mu)^{2} \right] - \mathbb{E} \left[ (\bar{x} - \mu)^{2} \right] \\ &= \sigma^{2} - \frac{\sigma^{2}}{N} = \frac{N - 1}{N} \sigma^{2} \end{align}$$
편향을 0으로 만들어주기 위해서 분모를 $N$이 아닌 $N - 1$으로 사용하면 $\mathbb{E}[\sigma^{2}_{\text{mle}}] = \sigma^{2}$이 되어 편향이 0이 됩니다. 다양한 통계 프로그램에서 제공하는 "sample variance" 옵션이 바로 이 보정된 표본 분산 공식을 쓰는 옵션입니다.
2. 추정량의 분산(Variance of an Estimator)
추정량의 편향이 0이 되어 불편추정량이라는 것은 매력적일 수 있습니다. 하지만, 편향이 0이라고 해서 좋은 추정량이라고 할 수는 없습니다. 예를 들어, 가우시안 분포를 따르는 데이터셋 $\mathcal{D} = \{ x_{1}, \dots, x_{N} \}$에 대해 모평균 $\theta^{*}$를 추정한다고 가정하겠습니다. 여기서 추정량으로 두 가지를 선택해볼 수 있습니다. 첫번째 추정량으로 첫번째 데이터 $x_{1}$만 쓰는 것으로 $\hat{\mathcal{D}} = x_{1}$입니다. 이는 불편추정량이지만 데이터 하나에 의존하고 순서에 따라 크게 들쭉날쭉합니다. 두번째 방법은 저희가 많이 사용했던 표본평균입니다. 이 역시 불편추정량이지만 분산은 훨씬 작죠. 즉, 추정량이 얼마나 변동이 심하냐를 구하는 것도 중요한 요소입니다. 추정량의 분산의 정의는 다음과 같습니다.
$$\mathbb{V} [\hat{\theta}] = \mathbb{E} [\hat{\theta}^{2}] - \left( \mathbb{E} [\hat{\theta}] \right)^{2} $$
저희는 추정량의 분산 역시 최대한 줄여보고 싶습니다. 그렇다면 하한을 어떻게 얻을 수 있을까요? 이것이 바로 Cramér‑Rao 하한(Cramér–Rao Lower Bound; CRLB)입니다. 만약, 추정량이 불편추정량이라면 추정량의 분산은 아래의 하한이 정해집니다.
$$\mathbb{V} [\hat{\theta}] \ge \frac{1}{N \mathbf{F}(\theta^{*})}$$
그렇다면 일반적으로 많이 사용하는 MLE는 언제 CRLB에 도달할 수 있을까요? 바로 연속성과 매끄러움이 보장되어야합니다. 즉. 모든 불편추정량 중 asymptotic variance(점근적 분산)가 최소가 됩니다. 그래서 MLE를 흔히 “점근적으로 최적(asymptotically optimal)” 이라 부릅니다.
3. 편향–분산 균형(The bias–variance trade‑off)
파라미터 추정 방법을 고를 때 저희의 최종 목표가 MSE를 최소화하는 것이라고 가정하겠습니다. 그리고 $\hat{\theta} = \hat{\theta} (\mathcal{D})$는 추정치로 실제 데이터 $\mathcal{D}$로부터 계산한 값입니다. 그리고 $\theta = \mathbb{E} [\hat{\theta}]$는 추정치의 기댓값이 되며 $\theta^{*}$의 데이터셋 $\mathcal{D}$를 만드는 실제 파라미터입니다.
$$ \begin{align} \mathbb{E}\!\Bigl[(\hat{\theta}-\theta^{*})^{2}\Bigr] &= \mathbb{E}\!\Bigl[\,\bigl((\hat{\theta}-\theta)+(\theta-\theta^{*})\bigr)^{2}\Bigr]\\[4pt] &= \mathbb{E}\!\Bigl[(\hat{\theta}-\theta)^{2}\Bigr] \;+\; 2(\theta-\theta^{*})\,\mathbb{E}\![\hat{\theta}-\theta] \;+\; (\theta-\theta^{*})^{2}\\[4pt] &= \mathbb{E}\!\Bigl[(\hat{\theta}-\theta)^{2}\Bigr] \;+\; (\theta-\theta^{*})^{2}\\[4pt] &= \underbrace{\operatorname{Var}[\hat{\theta}]}_{\text{분산}} \;+\; \underbrace{\text{bias}^{2}(\hat{\theta})}_{\text{편향 제곱}} \end{align}$$
이 결과는 매우 중요한 사실을 제공합니다.
1) 분산을 줄이려고 데이터를 더 사용하거나 강한 규제를 걸면 편향이 늘어날 수 있습니다.
2) 반대로 편향을 0 으로 맞추려다 보면 분산이 커져 추정치가 요동칠 수 있습니다.
3) MSE 는 두 항의 합이므로, 조금의 편향을 허용해 분산을 크게 줄일 수 있다면 전체 오차가 더 작아질 수도 있습니다.