이전 포스팅에서는 샘플링 분포에 관하여 짧게 설명드렸습니다. 간단하게 요약해보도록 하겠습니다. 빈도주의 통계에서의 불확실성은 MLE 또는 MOM과 같은 추정량의 샘플링 분포로 표현합니다. 기본적으로 추정량 $\hat{\Theta}$는 데이터 $\mathcal{D}$를 입력받아 추정값 또는 예측을 반환하는 함수로 정의됩니다. 이때, 데이터 $\mathcal{D}$는 고정되어 있지만 알지 못한다고 가정되는 진짜 파라미터 $\theta^{*}$로부터 무작위로 생성된다고 가정합니다. 따라서, 추정값 $\hat{\theta} = \hat{\Theta}(\mathcal{D})$ 역시 확률 변수로 해석할 수 있으며 여러 번 새로운 데이터를 뽑아 같은 추정 절차를 반복할 때 얻게 될 값들의 분포를 바로 샘플링 분포라고 부릅니다. 수식적으로는 다음과 같이 계산할 수 있었죠?
$$\text{SamplingDist}(\hat{\Theta}, \theta^{*}) = \text{PushThrough}(p(\tilde{\mathcal{D}} \mid \theta^{*}), \hat{\Theta})$$
하지만, 일부 단순 모델은 이 분포를 분석적으로 계산할 수 있지만, 대부분은 몬테카를로 시뮬레이션으로 근사합니다. 오늘은 가장 흔히 쓰이는 추정량인 MLE를 활용하여 예시를 들어보도록 하겠습니다. 표본 크기 $N$이 충분히 커지게 되면 특정 모델들의 경우 MLE의 샘플링 분포가 가우시안 분포의 형태로 수렴합니다. 이를 샘플링 분포의 점근적 정규성(Asymptotic Normality)라고 부릅니다.
정리1. 모수가 식별 가능(identifiable)하다면 다음 식을 만족한다.
$$\text{SamplingDist}(\hat{\Theta}_{\text{mle}}, \theta^{*}) \rightarrow \mathcal{N}(\cdot \mid \theta^{*}, (NF(\theta^{*}))^{-1})$$
여기서 $F(\theta^{*})$ 는 Fisher 정보 행렬이다. 이 수식을 다시 작성하면 다음과 같이 쓸 수 있다.
$$\sqrt{N}\mathbf{F}(\theta^{*})^{\frac{1}{2}}(\hat{\theta} - \theta^{*}) \rightarrow \mathcal{N}(0, \mathbf{I})$$
이때, $\hat{\theta} = \hat{\Theta}(\tilde{\mathcal{D}})$이다.
위 정리에서 중요한 개념 중 하나인 Fisher 정보 행렬(Fisher Information Matrix; FIM)은 로그우도의 곡면이 정점에서 얼마나 휘어져있는지를 계량하는 방법 중 하나입니다. 정의는 다음과 같습니다.
$$\mathbf{F}(\theta^{*}) = \mathbb{E}_{x \sim p(x \mid \theta)} \left[ \nabla \log p(x \mid \theta) \nabla \log p(x \mid \theta)^{T} \right]$$
따라서, FIM의 $(i, j)$번째 원소는 다음과 같습니다.
$$F_{ij} = \mathbb{E}_{x \sim \theta} \left[ \frac{\partial}{\partial \theta_{i}} \log p(x \mid \theta) \frac{\partial}{\partial \theta_{j}} \log p(x \mid \theta) \right]$$
정리2. 로그우도 $\log p(x \mid \theta)$가 두 번 미분 가능하고 몇 가지 정규성 조건을 만족하면 다음 식을 만족한다.
$$F_{ij} = - \mathbb{E}_{x \sim \theta} \left[ \frac{\partial^{2}}{\partial \theta_{i} \partial \theta_{j}} \log p(x \mid \theta) \right]$$
정리2에 따르면 FIM은 음의 로그우도의 기대 헤시안과 동일하게 됩니다. 한편, 관측값으로 기댓값을 대체하면 이를 경험적 FIM이라고 부르게 되며 이는 NLL을 실제 헤시안과 일치하게 됩니다. 이는 로그우도가 가파를수록(헤시안이 클수록) $N\mathbf{F}^{-1}(\theta)$가 작아져서 샘플링 분포의 분산이 감소하게 됩니다. 즉, 데이터가 파라미터를 잘 결정해주게 되는 것이죠. 따라서, 반복 추출을 해도 추정값이 크게 흔들리지 않게 되는 것 입니다.
만약, 파라미터가 스칼라값이라면 $\mathbb{V}[\hat{\theta} - \theta^{*}] \rightarrow \frac{1}{N\mathbf{F}(\theta^{*})}$가 됩니다. 여기서, 샘플링 분포 분산의 제곱근을 표준 오차라고 합니다. 따라서, 다음 식이 성립합니다.
$$\frac{\hat{\theta} - \theta^{*}}{\text{se}} \rightarrow \mathcal{N}(0, 1)$$
만약, 베르누이 모형을 기준으로 해본다면 $X_{n} \sim \text{Ber}(\theta^{*})$이라고 가정하고 MLE는 $\hat{\theta} = \frac{1}{N} \sum_{n = 1}^{N} X_{n}$이 됩니다. 표준오차는 $\text{se} = \sqrt{\mathbb{V}[\hat{\theta}]} = \sqrt{\frac{\theta^{*}(1 - \theta^{*})}{N}}$이 되죠. 따라서, 데이터로부터는 $\hat{\text{se}} = \sqrt{\frac{\hat{\theta}(1 - \hat{\theta})}{N}}$로 추정할 수 있습니다.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 5) (3) | 2025.07.29 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 4) (0) | 2025.07.28 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 2) (0) | 2025.07.25 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 1) (1) | 2025.07.25 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 8) (3) | 2025.07.24 |