안녕하세요. 오늘은 지난 시간의 기초통계학[17].베이즈 추론 1(https://everyday-image-processing.tistory.com/33)에 이어서 '확률론적 예측'에 관해서 알아보겠습니다.
지난 시간에 베이즈 추론을 알아보았는 데 이를 위해서 데이터를 바탕으로 가설의 확률을 갱신하는 과정을 진행하였습니다. 이를 활용해서 이후에 가능한 결과를 확률로서 표현할 수 있습니다.
먼저, 일상에 확률을 내재하는 문장에 대해서 생각해보겠습니다. 크게 3가지로 나눌 수 잇습니다. 여기서 추정 확률 단어(words of estimative probability; WEP)라는 개념이 나오는 데 어려워 보이지만 '거의'와 같이 미래의 사건이 발생할 가능성을 전달할 수 있는 단어를 포함하는 문장입니다.
- 예측 : 내일 비가 올 것이다.
- WEP를 사용한 예측 : 내일 거의 비가 올 것이다.
- 확률론적 예측 : 내일 비가 올 확률이 60% 정도이고 비가 오지 않을 확률은 40% 정도이다.
확률론적 예측을 보면 말 그대로 '확률'을 통해서 미래의 사건이 일어날 가능성을 표현하고 있습니다. 이러한 확률론적 예측은 많은 분야에서 사용되는 데 대표적으로 날씨, 기후 변화, 선거 등이 있다. 이 분야들은 모두 현재에 있어서는 미래가 불확실성이 있습니다. 하지만 모두 날씨나 선거를 볼 때 최대한 확률적으로 설명하기를 원합니다. 내일 비가 올 확률이라던지 어떤 후보가 시장이 될 확률이 높은지에 대해서 말입니다.
1. 예측 확률
이제 확률론적 예측을 더 정확하게 정의하면 실험을 통해 얻을 수 있는 각각의 결과에 대허서 확률을 배정한 것입니다. 이전 포스팅에 동전 예제를 다시 생각해보겠습니다. 각 동전의 타입을 다시 정리하겠습니다.
- 동전 A : 공평한 동전
- 동전 B : 앞면이 나올 확률이 0.6
- 동전 C : 앞면이 나올 확률이 0.9
그리고 동전 A는 2개, 동전 B는 1개, 동전 C는 1개로 총 4개의 동전이 있다고 가정하겠습니다. 이제 각각의 사건을 정의하면 A는 동전 A를 선택한 것, B는 동전 B를 선택한 것, C는 동전 C를 선택한 것이라고 하겠습니다.
1.1. 사전 예측 확률
본격적으로 각 동전 던지는 실험을 하기 전에 이미 각 동전을 던졌을 때의 앞면, 뒷면이 나오는 확률을 알고 있습니다. 따라서 전체 동전에 대해서 앞면이 나올 확률과 뒷면이 나올 확률을 알 수 있습니다. 앞면이 나올 사건을 $D_{H}$, 뒷면이 나올 사건을 $D_{T}$라고 하겠습니다. 그러면 총 확률의 법칙을 사용해서 아래의 결과를 얻을 수 있습니다.
$$P(D_{H}) = P(D_{H}|A) \cdot P(A) + P(D_{H}|B) \cdot P(B) + P(D_{H}|C) \cdot P(C) = 0.625$$
$$P(D_{T}) = P(D_{T}|A) \cdot P(A) + P(D_{T}|B) \cdot P(B) + P(D_{T}|C) \cdot P(C) = 0.375$$
이 확률은 동전이 던져질 때 일어날 확률에 대한 예측을 알려주고 있습니다. 따라서 저희는 앞면이 나올 확률이 더 높기 때문에 던진다면 앞면이 나올 것이라고 확률적으로 예측할 수 있습니다. 그리고 이는 본격적으로 실험을 하기 전에 계산되기 때문에 이를 사전 예측 확률이라고 합니다.
1.2. 사후 예측 확률
이제 동전을 던졌을 때 앞면이 나왔다고 가정하겠습니다. 이제 동전을 던졌으므로 저희는 데이터 $D$를 가지고 있습니다. 이 데이터는 이전 포스팅에서 사후 확률을 갱신하는 데에 사용되었습니다. 이번에도 동일하게 베이즈 추론 표를 완성해보겠습니다.
가설 | 사전 확률 | 우도 | 베이즈 분자식 | 사후 확률 |
$H$ | $P(H)$ | $P(D|H)$ | $P(D|H)P(H)$ | $P(H|D)$ |
$A$ | 0.5 | 0.5 | 0.25 | 0.4 |
$B$ | 0.25 | 0.6 | 0.15 | 0.24 |
$C$ | 0.25 | 0.9 | 0.225 | 0.36 |
total | 1 | 0.625 | 1 |
저희는 이 표를 바탕으로 다음에 던졌을 때 앞면이 나올 확률이 높은지, 뒷면이 나올 확률이 높은지를 알 수 있습니다.
즉, 현재 앞면이 나온 상태에서 다음에 던졌을 때 앞면이 나올 확률, 뒷면이 나올 확률을 알 수 있는 것입니다. 식으로 표현하면 $P(D_{H}|D)$와 $P(D_{T}|D)$를 알 수 있는 것입니다. 이를 계산하기 위해서는 단순히 $A$가 나올 확률이 아니라 현재 데이터 $D$를 가지고 있으므로 데이터 $D$가 나왔을 때 사건 $A$가 나올 확률을 계산해야합니다. 이를 식으로 표현하면 $P(A|D)$를 계산해야합니다. 이를 바탕으로 계산하면 아래와 같습니다.
$$P(D_{H}|D) = P(D_{H}|A)P(A|D) + P(D_{H}|B)P(B|D) + P(D_{H}|C)P(C|D) = 0.668$$
$$P(D_{T}|D) = P(D_{T}|A)P(A|D) + P(D_{T}|B)P(B|D) + P(D_{T}|C)P(C|D) = 0.332$$
이 확률은 동전을 다시 던졌을 때 사건이 일어날 확률을 확률적으로 예측하는 것을 보여주고 있습니다. 위 계산 결과를 통해서 한번 더 던졌을 때 앞면이 나올 확률이 더 높으므로 2번째 던졌을 때도 앞면이 나올 것이라고 합리적으로 예측할 수 있습니다. 또한 이 확률은 데이터를 얻은 뒤, 즉 사후에 확률을 계산하므로 사후 예측 확률이라고 합니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[20].베이즈 추론 4 - 연속 사전확률을 가지는 경우에 대하여 (0) | 2020.04.12 |
---|---|
기초통계학[19].베이즈 추론 3 - 오즈(Odds) (0) | 2020.04.09 |
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |
기초통계학[16].최대 우도 추정법 (0) | 2020.03.31 |
기초통계학[15].통계 소개 (0) | 2020.03.29 |