추정량이 MLE와 같이 단순하지 않고 복잡한 함수이거나 표본이 작을 때는 샘플링 분포를 몬테카를로 기법인 부트스트랩(bootstrap)으로 근사할 수 있습니다.
기본적인 아이디어를 확인해보도록 하죠. 이론적으로는 데이터셋을 만드는 실제 파라미터 $\theta^{*}$를 안다고 가정하고 $S$개의 가짜 데이터셋을 다음과 같이 생성합니다.
$$\tilde{\mathcal{D}}^{(s)} = \{ x_{n} \sim p(x_{n} \mid \theta^{*}) : n = 1 : N \}$$
그리고 각 샘플에 대해서 추정량을 적용하여 $\hat{\theta}^{(s)} = \hat{\Theta}(\tilde{\mathcal{D}}^{(s)})$를 얻으면 $\{ \hat{\theta}^{(s)} \}$의 경험적 분포가 샘플링 분포의 추정치가 됩니다. 하지만 여기서 문제점은 실제 파라미터 $\theta^{*}$를 일반적으로는 알 수가 없다는 점 입니다. 따라서 원본 데이터 자체를 분포 $p(x_{n} \mid \theta^{*})$의 경험적 근사로 삼습니다. 이를 위해서 원본 데이터에서 중복을 허용하며 $N$번 뽑아 $\tilde{\mathcal{D}}^{(s)}$를 만듭니다. 이때, 복원 없이 뽑으면 항상 동일한 데이터셋이 되므로 의미가 없습니다. 관측 데이터로부터 "스스로 부츠끈을 잡아당겨" 새로운 가상 표본을 만든다해서 부트스트랩(bootstrap)이라고 부릅니다.

그림 4.23 (a)와 (b)는 베르누이 MLE의 샘플링 분포를 부트스트랩으로 근사한 모습을 보여주고 있습니다. $N = 10$일 때는 분포가 비대칭적이라서 가우시안 분포와는 거리가 있지만 $N = 100$이면 지난 포스팅의 결과대로 가우시안 모양에 근사하게 됩니다.
복원 추출 시 한 표본에 고유한 데이터 포인트가 포함된 기대개수는 약 $0.632 \times N$으로 정해져있습니다. 각 항목이 한 번 이상 선택될 확률은 $(1 - (1 - \frac{1}{N})^{N}) \rightarrow 1 - e^{-1} \approx 0.632$이기 때문이죠.
일반적으로 부트스트랩은 가난한 사람의 사후 분포라는 별명을 가집니다. 이번에는 부트스트랩으로 얻은 추정값 $\hat{\theta}^{(s)} = \hat{\Theta}(\mathcal{D}^{(s)})$과 베이즈 사후 분포에서 뽀븐 표본 $\theta^{(s)} \sim p(\cdot \mid \mathcal{D})$와 어떤 관계가 있는지 알아보도록 하겠습니다. 개념적으로 부트스트랩은 원래 샘플링 분포를 근사하려는 빈도주의적인 접근방식이고 사후분포 표본은 베이즈 접근 방식으로 파라미터의 불확실성을 직접 모델링한 결과죠. 즉, 출발점도 해석도 다르지만 결과가 비슷해질 때가 있습니다.
추정량이 MLE이고 사전 분포가 약하거나 정보가 거의 없을 때 그림 4.23 (c)와 (d)에서 보이듯 사후 분포와 샘플링 분포가 점점 비슷해집니다. 그래서 부트스트랩 분포를 흔히 “가난한 사람의(cheap) 사후분포” 라 부르기도 합니다. 하지만, 의외로 부트스트랩이 더 느릴 수 있습니다. 부트스트랩의 경우 모델 피팅을 총 $S$번 수행해야하지만 베이즈 표본 추출은 피팅은 한 번만 수행하고 이후에 표본만 추출하면 되기 때문이죠.
'인공지능 > Probabilistic Machine Learning (intro)' 카테고리의 다른 글
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 6) (3) | 2025.07.31 |
|---|---|
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 5) (3) | 2025.07.29 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 3) (2) | 2025.07.27 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 2) (0) | 2025.07.25 |
| [PML intro] Ch4 Statistics (Sec4.7 Frequentist Statistics - 1) (1) | 2025.07.25 |