빈도주의 통계에서는 불확실성을 어떤 확률 변수의 사후 분포가 아닌 추정량(estimator)의 샘플링 분포(sampling distribution)로 표현합니다. 여기서 추정량 $\delta: \mathcal{D} \rightarrow \mathcal{A}$은 관측 데이터 $\mathcal{D}$가 주어졌을 때 어떤 행동을 취할 지 결정하는 함수입니다. 이 행동은 클래스 레이블을 예측하거나, 다음 관측값을 예측하거나 알 수 없는 파라미터를 추정하는 것일 수도 있습니다.
보통 파라미터를 추정할 때 $\hat{\theta}$을 많이 사용합니다. 하지만, 기호만 보았을 때 숫자인지 함수인지 모호합니다. 따라서, 이를 해결하기 위해 함수 자체를 $\hat{\Theta}$로, 그 함수가 데이터셋 $\mathcal{D}$에 적용된 값을 $\hat{\theta} = \hat{\Theta}(\mathcal{D})$로 구분합니다. 예를 들어, $\hat{\Theta}$가 MLE나 MOM과 같은 파라미터를 추정하는 함수로 정의될 수 있는 것이죠.
빈도주의에서는 데이터 $\mathcal{D}$를 확률 변수로 해석합니다. 즉, 데이터를 만들어내는 진짜 파라미터 $\theta^{*}$는 고정되어 있지만 미지의 상수로 보죠. 이 부분이 빈도주의 통계의 핵심적인 부분입니다. 따라서, 데이터로 인해 얻은 추정된 파라미터 $\hat{\theta} = \hat{\Theta}(\mathcal{D})$ 역시 확률 변수로 해석할 수 있게 됩니다. 여기서 확률분포 $\hat{\theta}$를 추정량의 샘플링 분포라고 표현하죠.
좀 더 쉽게 이해하기 위해서 예시를 들어보겠습니다. 저희가 진짜 파라미터 $\theta^{*}$으로부터 서로 다른 데이터셋 $S$개가 만들어졌다고 가정하겠습니다. 즉, 다음과 같이 쓸 수 있습니다.
$$\mathcal{D}^{(s)} = \{ x_{n} \sim p(x_{n} \mid \theta^{*}) : n = 1, \dots, N \}$$
이를 줄여서 $\mathcal{D}^{(s)} \sim \theta^{*}$라고도 씁니다. 이제, 각 데이터셋마다 추정량을 적용하여 추정값들의 분포를 얻을 수 있습니다.
$$\{ \hat{\Theta}(\mathcal{D}^{(s)}) \}_{s = 1}^{S}$$
이제 $S \rightarrow \infty$로 보내면 이 집합이 만드는 분포가 바로 샘플링 분포가 됩니다. 이를 수식으로 표현하면 다음과 같습니다.
$$\text{SamplingDist}(\hat{\Theta}, \theta^{*}) = \text{PushThrough}(p(\tilde{\mathcal{D}} \mid \theta^{*}), \hat{\Theta})$$
즉, 데이터 분포 $p(\tilde{\mathcal{D}} \mid \theta^{*})$를 추정량 함수 $\hat{\Theta}$에 "밀어 넣어(push through)”
추정값들의 분포를 유도한다는 뜻입니다. 어떤 경우에는 분석적으로(닫힌 형태) 샘플링 분포를 구할 수 있습니다. 하지만, 대부분의 경우 몬테카를로 시뮬레이션으로 근사해야 합니다.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 4) (0) | 2025.07.28 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 3) (2) | 2025.07.27 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 1) (1) | 2025.07.25 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 8) (3) | 2025.07.24 |
| [PML intro] Ch4 Statistics (Sec4.6 Bayesian Statistics - 7) (0) | 2025.07.23 |