안녕하세요. 그 동안 시험 기간과 여러가지 일이 겹쳐서 포스팅을 하지 못했습니다. 시험 기간도 조만간 끝나고 머리도 좀 식힐 겸 쉬운 내용을 포스팅하도록 하겠습니다.
지난 시간에는 기초통계학[24].공액 사전 확률분포 2에서 정규분포의 사전 확률분포가 자기 자신임을 증명하여 정규 분포는 공액 사전 확률분포임을 확인하였습니다. 그리고 기초통계학[23].공액 사전 확률분포 1에서는 베타 분포의 사전 확률분포가 자기 자신임을 증명하여 베타 분포는 공액 사전 확률분포임을 확인하였습니다. 그리고 기초통계학[22].베이즈 추론 5, 기초통계학[20].베이즈 추론 4에서는 사전 확률분포가 미리 주어진 상태에서 베이즈 추론을 진행하였습니다. 사전 확률분포가 미리 주어진다는 것은 저희가 이미 어떤 도메인 지식을 알고 있음을 의미합니다. 예를 들어서 동전이 앞면이 나올 확률이 $\theta$라고 했을 때 $\theta$가 나올 분포가 어떤 분포를 따른 다는 것은 굉장히 많은 실험의 결과를 통해서 미리 얻은 결과일 것입니다. 하지만 대부분의 상황에서 저희는 사전 확률분포가 어떤 분포인지는 모릅니다.
오늘은 임의로 사전 확률분포를 선택하면 어떻게 달라지는 지 확인해보도록 하겠습니다.
먼저 사전 확률분포를 선택하는 방식은 크게 2가지가 있습니다. 지금까지 저희가 공부했던 베이지안(Baysian) 관점을 이용해서 해결하거나 또는 빈도론자(Frequentist) 관점을 이용해서 해결할 수 있습니다.그리 어렵지 않으니 천천히 따라와주시면 되겠습니다.
본격적으로 시작하기 전에 머리도 식힐 겸 베이즈 정리(Bayes's theorem)을 복습하고 넘어가겠습니다.
데이터 D, 가설 H가 주어졌을 때 베이즈 정리는 아래와 같다.
$$P(H|D) = \frac{P(D|H) \dot P(H)}{P(D)}$$
이는 곧 사후 확률이 사전 확률과 우도의 곱에 비례함을 의미한다.
오늘은 예시를 통해서 알아보도록 하겠습니다.
저희에게 5개의 주사위가 있다고 가정하겠습니다. 각각의 주사위는 4면($H_{4}$), 6면($H_{6}$), 8면($H_{8}$), 12면($H_{12}$), 20면($H_{20}$) 주사위입니다. 이 중에서 어떤 주사위를 선택해서 4번 굴렸다고 했을 때 순서대로 4, 2, 4, 7가 앞면에 나왔다고 가정하겠습니다. 이와 같은 결과가 나왔을 때 5개의 주사위 중에서 어떤 주사위로 던졌을까요? 이를 해결하려면 먼저 사전 확률분포를 정해야합니다.
저희는 먼저 가장 간단한 균등 사전 확률분포부터 확인해보겠습니다.
균등 사전 확률분포는 각 가설을 선택할 확률이 전부 동일한 분포입니다. 즉, 가설 $H_{4}, H_{6}, H_{8}, H_{12}, H_{20}$ 들 중 선택하는 확률이 동일하다는 의미이므로 $P(H) = \frac{1}{5}$가 됩니다. 먼저 주사위를 선택해서 4가 나왔으므로 첫번째 결과를 베이지안 관점으로 해석해볼 수 있습니다. 이를 표로 그리면 아래와 같습니다. 이때 각 가설에 대한 사전확률분포와 우도의 값을 곱해서 전부 더한뒤 나누는 과정은 소모적인 계산 과정이기 때문에 생략하고 결과만 표시했습니다.
가설 | 사전 확률분포 | 우도 1 | 사후 확률분포 1 |
$H_{4}$ | $\frac{1}{5}$ | $\frac{1}{4}$ | 0.370 |
$H_{6}$ | $\frac{1}{5}$ | $\frac{1}{6}$ | 0.247 |
$H_{8}$ | $\frac{1}{5}$ | $\frac{1}{8}$ | 0.185 |
$H_{12}$ | $\frac{1}{5}$ | $\frac{1}{12}$ | 0.123 |
$H_{20}$ | $\frac{1}{5}$ | $\frac{1}{20}$ | 0.074 |
첫번째 결과를 통해서 알 수 있는 것은 5개의 주사위 중에서 $H_{4}$로 던졌을 확률이 가장 높다고 판단할 수 있습니다. 이제 2번째 결과인 2가 나왔을 때를 확인해보겠습니다.
가설 | 사전 확률분포 | 우도 1 | 사후 확률분포 1 | 우도 2 | 사후 확률분포 2 |
$H_{4}$ | $\frac{1}{5}$ | $\frac{1}{4}$ | 0.370 | $\frac{1}{4}$ | 0.542 |
$H_{6}$ | $\frac{1}{5}$ | $\frac{1}{6}$ | 0.247 | $\frac{1}{6}$ | 0.241 |
$H_{8}$ | $\frac{1}{5}$ | $\frac{1}{8}$ | 0.185 | $\frac{1}{8}$ | 0.135 |
$H_{12}$ | $\frac{1}{5}$ | $\frac{1}{12}$ | 0.123 | $\frac{1}{12}$ | 0.060 |
$H_{20}$ | $\frac{1}{5}$ | $\frac{1}{20}$ | 0.074 | $\frac{1}{20}$ | 0.022 |
이번에도 여전히 높은 확률로 $H_{4}$로 던졌을 확률이 가장 높습니다. 이제 3번째 결과인 4이 나왔을 때 결과를 확인해보겠습니다.
가설 | 사전 확률분포 | 우도 1 | 사후 확률분포 1 | 우도 2 | 사후 확률분포 2 | 우도 3 | 사후 확률분포 3 |
$H_{4}$ | $\frac{1}{5}$ | $\frac{1}{4}$ | 0.370 | $\frac{1}{4}$ | 0.542 | $\frac{1}{4}$ | 0.682 |
$H_{6}$ | $\frac{1}{5}$ | $\frac{1}{6}$ | 0.247 | $\frac{1}{6}$ | 0.241 | $\frac{1}{6}$ | 0.202 |
$H_{8}$ | $\frac{1}{5}$ | $\frac{1}{8}$ | 0.185 | $\frac{1}{8}$ | 0.135 | $\frac{1}{8}$ | 0.085 |
$H_{12}$ | $\frac{1}{5}$ | $\frac{1}{12}$ | 0.123 | $\frac{1}{12}$ | 0.060 | $\frac{1}{12}$ | 0.025 |
$H_{20}$ | $\frac{1}{5}$ | $\frac{1}{20}$ | 0.074 | $\frac{1}{20}$ | 0.022 | $\frac{1}{20}$ | 0.005 |
이번에도 여전히 높은 확률로 $H_{4}$로 던졌을 확률이 가장 높습니다. 이제 마지막 결과인 7이 나왔을 때 결과를 확인해보겠습니다.
가설 | 사전 확률분포 | 우도 1 | 사후 확률분포 1 | 우도 2 | 사후 확률분포 2 | 우도 3 | 사후 확률분포 3 | 우도 4 | 사후 확률분포 4 |
$H_{4}$ | $\frac{1}{5}$ | $\frac{1}{4}$ | 0.370 | $\frac{1}{4}$ | 0.542 | $\frac{1}{4}$ | 0.682 | $0$ | 0.000 |
$H_{6}$ | $\frac{1}{5}$ | $\frac{1}{6}$ | 0.247 | $\frac{1}{6}$ | 0.241 | $\frac{1}{6}$ | 0.202 | $0$ | 0.000 |
$H_{8}$ | $\frac{1}{5}$ | $\frac{1}{8}$ | 0.185 | $\frac{1}{8}$ | 0.135 | $\frac{1}{8}$ | 0.085 | $\frac{1}{8}$ | 0.818 |
$H_{12}$ | $\frac{1}{5}$ | $\frac{1}{12}$ | 0.123 | $\frac{1}{12}$ | 0.060 | $\frac{1}{12}$ | 0.025 | $\frac{1}{12}$ | 0.161 |
$H_{20}$ | $\frac{1}{5}$ | $\frac{1}{20}$ | 0.074 | $\frac{1}{20}$ | 0.022 | $\frac{1}{20}$ | 0.005 | $\frac{1}{20}$ | 0.021 |
마지막 결과를 보면 결과가 갑자기 바뀐것을 알 수 있습니다. 그 이유는 마지막 결과에서 $H_{4}, H_{6}$에서는 나올 수 없는 결과가 나왔기 때문이죠. 따라서 5개의 주사위 중에서 8면을 가진 주사위로 던졌을 가능성이 높다는 것을 시사하고 있습니다.
지금까지는 균등 사전 확률분포일 때 확인해보았습니다. 그렇다면 다른 사전 확률분포를 선택하면 어떻게 변할까요? 극단적인 상황으로 20면체 주사위가 나올 확률이 다른 주사위가 나올 확률의 100배인 사전 확률분포라고 가정하겠습니다.
위 과정을 표로 그리면 아래와 같습니다.
가설 | 사전 확률분포 | 우도 1 | 사후 확률 분포 1 | 우도 2 | 사후 확률 분포 2 | 우도 3 | 사후 확률 분포 3 | 우도 4 | 사후 확률 분포 4 |
$H_{4}$ | 0.0096 | $\frac{1}{4}$ | 0.044 | $\frac{1}{4}$ | 0.172 | $\frac{1}{4}$ | 0.443 | $0$ | 0 |
$H_{6}$ | 0.0096 | $\frac{1}{6}$ | 0.030 | $\frac{1}{6}$ | 0.077 | $\frac{1}{6}$ | 0.131 | $0$ | 0 |
$H_{8}$ | 0.0096 | $\frac{1}{8}$ | 0.022 | $\frac{1}{8}$ | 0.043 | $\frac{1}{8}$ | 0.055 | $\frac{1}{8}$ | 0.464 |
$H_{12}$ | 0.0096 | $\frac{1}{12}$ | 0.015 | $\frac{1}{12}$ | 0.019 | $\frac{1}{12}$ | 0.016 | $\frac{1}{12}$ | 0.061 |
$H_{20}$ | 0.9615 | $\frac{1}{20}$ | 0.889 | $\frac{1}{20}$ | 0.689 | $\frac{1}{20}$ | 0.354 | $\frac{1}{20}$ | 0.475 |
이번에는 결과가 완전히 달라졌습니다. 균등 사전 확률분포일때와 비교해보면 20면 주사위일 확률은 0.021로 굉장히 낮았습니다. 하지만 20면 주사위일 확률이 극단적으로 높다는 것을 이미 알고 있다면(사전 확률분포) 사후 확률분포 역시 0.475로 크게 증가하였으며 이번에는 20면 주사위로 던졌을 확률이 높다는 것을 알려주고 있습니다.
위 결과를 보면 어떤 사전 확률분포를 선택하느냐에 따라서 결과가 크게 변하는 것을 알 수 있습니다. 따라서 어떻게 사전 확률분포를 선택할 지 역시 중요한 문제가 됨을 알 수가 있습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[27].빈도론자 관점의 통계학 (0) | 2020.07.11 |
---|---|
기초통계학[26].예측 구간 (0) | 2020.07.10 |
기초통계학[24].공액 사전 확률분포 2 (0) | 2020.04.27 |
기초통계학[23].공액 사전 확률분포 1 (0) | 2020.04.22 |
기초통계학[22].베이즈 추론 5 - 연속 사전확률과 연속 데이터를 가지는 경우에 대하여 (0) | 2020.04.17 |