1. 적률추정법(The Method of Moments Estimation; MOM)
가장 기본적인 모수 추정법이였던 MLE로 돌아가보겠습니다. 기본적으로 MLE는 $\nabla_{\theta} \text{NLL}(\theta) = 0$을 풀어야합니다. 이러한 미분 연산은 계산이 까다로운 경우가 많기 때문에 이를 완화하기 위해 적률추정법을 사용하여 더 쉽게 모수를 추정해볼 수 있습니다.
일단 "모멘트"라는 것은 이전 포스팅에서도 설명드렸습니다. 쉽게 이야기하면 데이터 분포의 형태를 숫자로 요약해주는 지표로 저희가 잘 알고 있는 평균과 분산은 각각 1차 모멘트 그리고 중심 2차 모멘트라고 불립니다. 3차 모멘트의 경우 왜도(Skewness)로 얼마나 치우쳐있는지 판단하지를 정량적으로 알 수 있습니다. 결국 MOM은 이론적으로 계산한 모멘트가 샘플 데이터에서 계산한 모멘트가 되도록 닫힌 형태로 분포의 모수를 찾는 기법입니다.
첫번째 단계는 다음과 같이 표본 모멘트를 계산하는 것 입니다.
$$\hat{\mu}_{k} = \frac{1}{N} \sum_{n = 1}^{N} y_{n}^{k} $$
다음 단계는 각 $k = 1, \dots, K$에 대해서 다음과 같은 방정식을 세워줍니다.
$$\mu_{k}(\theta) = \hat{\mu}_{k}$$
이렇게 되면 파라미터가 $K$라고 가정했을 때 총 $K$개의 연립방정식을 얻을 수 있습니다. 이때 선형이라면 즉시 닫힌 형태로 결과를 얻을 수 있고 비선형인 경우라고 해도 차수가 낮으면 쉽게 풀리는 경우가 많습니다. 그러면 해가 여러 개라면 가능한 범위에서 만족하는 해를 선택하면 됩니다. 그런데 말로만 하니 조금 이해가 잘 안되는 거 같으니 좀 더 쉬운 예시를 통해 자세히 알아보도록 하겠습니다!
2. MOM 예시 (Examples of MOM)
2.1 단변량 정규분포에서의 적률추정법(MOM for the Univariate Gaussian)
가장 쉬운 예시로 단변량 가우시안 분포 $\mathcal{N}(\mu, \sigma^{2})$를 가정해보겠습니다. 이전에 저희가 MLE의 예시로 연속형 분포로 단변량 가우시안 분포를 사용했던 거 기억하시나요? 저희는 결과는 다음과 같고 이게 두번째 단계인 방정식을 설계하는 것과 동일합니다.
$$\begin{cases} &\mu_{1} = \mu = \bar{y} \\ &\mu_{2} = \sigma^{2} + \mu^{2} = s^{2} \end{cases}$$
여기서 $\mu_{1}$과 $\mu_{2}$는 각각 1차 모멘트와 2차 모멘트를 의미합니다. 그리고 $\bar{y}$은 표본 데이터의 경험적 평균, $s^{2}$은 경험적 “평균 제곱값”(second raw moment)을 의미합니다. 그러면 위 적률 방정식을 풀면 $\hat{\mu}_{\text{MOM}} = \bar{y}$ 그리고 $\hat{\sigma}_{\text{MOM}} = s^{2} - \bar{y}^{2}$이라는 결과를 얻게 됩니다. 이 결과는 결국 MLE와 동일한 결과를 나오게 됩니다. 하지만 항상 모든 분포에서 MOM = MLE인 것은 아닙니다.
2.2 균등 분포에서의 적률추정법(MOM for the Uniform Distribution)
항상 MOM = MLE임이 아님을 확인하기 위해 균등분포에서의 MOM을 예시로 들어보겠습니다. $Y \sim \text{Unif}(\theta_{1}, \theta_{2})$라고 가정하면 균등분포의 PDF는 다음과 같습니다.
$$p(y \mid \theta) = \frac{1}{\theta_{2} - \theta_{1}} \mathbb{I}(\theta_{1} \le y \le \theta_{2})$$
이때 1차 모멘트와 2차 모멘트를 계산하면 다음과 같습니다.
$$\begin{cases} &\mu_{1} = \mathbb{E}[Y] = \frac{1}{2}(\theta_{1} + \theta_{2}) \\ &\mu_{2} = \mathbb{E}[Y] = \frac{1}{3} (\theta_{1}^{2} + \theta_{1}\theta_{2} + \theta_{2}^{2}) \end{cases}$$
위 식은 현재 $\theta_{1}$와 $\theta_{2}$에 대한 식입니다. 이를 바꾸어 $\mu_{1}$와 $\mu_{2}$에 대한 식으로 바꾸어 써보면 다음과 같이 바꿀 수 있습니다.
$$\begin{cases} &\theta_{1} = \mu_{1} - \sqrt{3(\mu_{2} - \mu_{1}^{2})} \\ &\theta_{2} = 2\mu_{1} - \theta_{1} \end{cases}$$
즉, $\hat{\theta}_{1} = \hat{\mu}_{1} - \sqrt{3(\hat{\mu}_{2} - \hat{\mu}_{1}^{2})}$이고 $\hat{\theta}_{2} = 2\hat{\mu}_{1} - \hat{\theta}_{1}$이라고 할 수 있습니다. 사실 여기까지는 별 문제가 없습니다. 하지만, $\mathcal{D} = \{ 0, 0, 0, 0, 1 \}$이라는 데이터 샘플을 관측했다고 가정하겠습니다. 그러면 표본 1차 모멘트와 표본 2차 모멘트는 다음과 같이 계산됩니다.
$$\begin{cases} &\hat{\mu}_{1} = \frac{1}{5} (0 + 0 + 0 + 0 + 1) = \frac{1}{5} \\ &\hat{\mu}_{2} = \frac{1}{5} (0^{2} + 0^{2} + 0^{2} + 0^{2} + 1^{2}) = \frac{1}{5} \end{cases}$$
이를 위 식에 대입하면 $\hat{\theta}_{1} = \frac{1}{5} - 2\sqrt{\frac{3}{5}} = -0.493$이고 $\hat{\theta}_{2} = \frac{1}{5} + 2\sqrt{\frac{3}{5}} = 0.893$이라는 결과를 얻을 수 있죠. 별문제 없어보이지만 여기서 큰 모순이 존재합니다. 실제 표본의 최댓값은 1이기 때문에 $\theta_{2} = 0.893$인 균등분포에서는 절대 이 표본은 나올 수 없죠. 특, MOM 치가 파라미터 공간 조건인 $\theta_{1} \le y \le \theta_{2}$를 어기는 모순이 발생하였습니다.
그렇다면 MLE에서는 어떨까요? 순서통계량을 고려하여 데이터를 작은 값부터 정렬하여 $y_{(1)} \le y_{(2)} \le \dots \le y_{(N)}$이라고 두겠습니다. 여기서 길이 $\theta = \theta_{2} - \theta$라고 표현하면 우도는 다음과 같이 계산할 수 있습니다.
$$p(\mathcal{D} \mid \theta) = (\theta)^{-N} \mathbb{I}(y_{(1)} \ge \theta_{1}) \mathbb{I}(y_{(N)} \le \theta_{2})$$
다음 단계는 로그 우도를 $\theta$에 대해 미분하면 다음과 같습니다.
$$\frac{d}{d\theta} \log p(\mathcal{D} \mid \theta) = -\frac{N}{\theta} < 0$$
즉, $\theta$가 작아질수록 우도가 커지게 되죠. 마지막으로 가능한 최소 $\theta$를 선택하자면 $\hat{\theta}_{1} = y_{(1)}$이고 $\hat{\theta}_{2} = y_{(N)}$을 선택하면 됩니다. MOM에서 보았던 예시라고 가정한다면 $\hat{\theta}_{1} = 0$ 그리고 $\hat{\theta}_{2} = 1$이라고 가정하면 됩니다.
결과를 요약하자면 1) MLE는 “표본 최소·최대값을 그대로 파라미터로” 삼으므로, 데이터와 일관된 구간을 보장합니다. 그리고 2) MOM처럼 ‘불가능한’ 구간을 내놓지 않습니다.