안녕하세요. 오늘은 지난 시간은 기초통계학[19].오즈(https://everyday-image-processing.tistory.com/37)에 이어서 지금까지는 이산 사전 확률일 경우에 베이즈 추론을 진행했는데요. 오늘부터는 연속 사전 확률을 가지는 경우에 베이즈 추론을 진행해보도록 하겠습니다.
지금까지 저희는 유한 개의 가설을 가지는 경우에 대해서 베이즈 추론을 진행하였습니다. 이제부터는 가설이 연속 범위 내에 있을 때 베이즈 추론을 알아보겠습니다. 물론 가설이 이산에서 연속으로 바뀌었다고 해서 크게 달라진 것은 없으며 본질적으로는 동일합니다. 따라서 이산 사전확률일 때 베이즈 추론을 잘 이해하셨다면 연속 사전확률일 때도 충분히 이해하실수 있습니다.
본격적으로 진행하기 전에 가설이 연속 범위 내에 있다는 뜻이 여러분들에게 이해가 잘 안가실 수도 있으니 몇 가지 예시를 보도록 하겠습니다.
예제1. 베르누이 시행에서 확률이 $p$라고 가정하겠습니다. 즉, 한번의 베르누이 시행에서 성공할 확률은 $p$이고 실패할 확률은 $1-p$입니다. 이때 가설을 성공할 확률 그 자체로 바라보면 $p$는 $[0, 1]$ 사이의 임의의 수가 될 수 있습니다. 따라서 가설이 연속적인 범위에 있다고 볼 수 있습니다.
예제2. 물론 예제1과 같이 1개의 가설을 가질 수도 있지만 2개 이상의 가설을 가질 수도 있습니다. 대표적으로 평균이 $\mu$이고 표준편차가 $\sigma$인 정규분포를 생각해보겠습니다. 만약 저희가 정규분포의 평균과 표준편차를 가설화한다면 평균 $\mu$는 $(-\infty, \infty)$, 표준편차 $\sigma$는 $[0, \infty)$를 가질 수 있으므로 가설이 연속적인 범위에 있다고 볼 수 있습니다.
간단한 예제를 알아보았고, 이제 기호를 재정의하도록 하겠습니다. 연속 사전 확률일 경우와 이산 사전 확률일 경우의 기호를 동일하게 사용하면 헷갈린 경우가 있기 때문이죠.
- $A$ : 사건으로 사건이 일어날 확률은 $P(A)$
- $x$ : 확률 질량함수 $p(x)$와 확률 밀도함수 $f(x)$의 정의역 중 하나의 값입니다.
- $H$, $D$ : 각각 가설과 데이터를 의미합니다. 각각의 확률은 $P(H)$, $P(D)$와 같이 구할 수 있습니다.
- $\theta$, $x$ : 이 역시 각각 가설과 데이터의 값를 의미합니다. 다만 다른 점은 확률 질량함수 $p$와 확률 밀도함수 $f$에서 구한다는 것입니다. 예를 들어 동전을 던진다고 했을 때 $\theta = 0.6$이고 $x = 1$이라면 $p(x|\theta)$는 $\theta$라는 가설이 특정 값으로 정해졌을 때 $x$가 일어날 확률 질량함수의 값으로 해석할 수 있습니다. 이 경우에는 $p(x|\theta) = 0.6$입니다.
1. 연속 사전확률과 이산 우도를 가지는 경우
저희는 목표는 베이즈 추론입니다. 즉, 사전확률과 데이터가 주어졌을 때 가설의 사후확률을 얻는 것입니다. 이 점을 한번 더 유의하여 진행하도록 하겠습니다. 처음에 간단하게 예제를 보셨으면 아시겠지만 이산 사전확률을 가지는 경우와 다르지 않다는 것을 알 수 있습니다. 이산 사전확률을 가지는 경우에는 $P(H|D)$를 구하는 것이 목적이라면 이번에는 $p(\theta|x)$를 구하는 것이 목적입니다.
예제3. 앞면이 나올 확률이 $\theta$인 동전을 가지고 있다고 가정하겠습니다. 따라서 $\theta$은 $[0, 1]$ 사이의 값입니다. 저희가 $P(H|D)$를 구하는 과정에서 가설이 나오는 확률인 사전확률을 알고 있었습니다. 즉, 가설의 정보는 주어져야 합니다. 가설이 연속인 경우에도 가설의 정보는 주어집니다. 하지만 다른 점은 확률 밀도함수로 주어진다는 것입니다.
이 예제의 경우 $f(\theta) = 2\theta$라고 하겠습니다. 즉, 앞면이 나올 확률이 $f(\theta)$인 분포를 따르고 있는 것은 이미 알고 있는 사실입니다. 이때 이산 우도를 구할 수 있습니다. 이산인 이유는 데이터가 앞면 아니면 뒷면이기 때문입니다. 우도를 구하면 $p(x = 1|\theta) = \theta$, $p(x = 0|\theta) = 1 - \theta$임을 쉽게 알 수 있습니다.
2. 총 확률의 법칙
가설이 이산인 경우에 사후 확률을 구하기 위해서는 최종적으로 총 확률의 법칙을 통해 해당 데이터가 나올 전체 확률을 알고 있어야했습니다. 그 식은 아래와 같습니다.
$$P(D) = \sum_{i=1}^{n} P(D|H_{i})P(H_{i})$$
물론 이는 이산인 경우이기 때문에 저희는 이를 가설이 연속이 경우로 바꿔야합니다. 먼저 아래의 식을 보겠습니다.
$$p(x) = \sum_{i=1}^{n} P(x|\theta_{i})p(\theta_{i})$$
위의 식과 비교해보면 단순히 식만 변경한 것입니다. 이를 데이터 $x$에 대한 사전 예측 확률이라고 합니다. 하지만 저희는 현재 연속 사전확률을 가지고 있기 때문에 $p(\theta_{i})$를 확률 밀도함수로 바꾸어 써야합니다. 그 식은 아래와 같습니다.
$$p(x) = \int_{a}^{b} p(x|\theta)f(\theta) \; d\theta$$
위 식과의 차이점은 $\sum \rightarrow \int$이고 $p(\theta) \rightarrow f(\theta)$밖에 없습니다.
예제4. 이를 이용해서 예제3의 데이터 $x = 1$에 대한 총 확률을 구해보도록 하겠습니다.
$$p(x=1) = \int_{0}^{1} p(x=1|\theta)f(\theta) \; d\theta = \int_{0}^{1} 2\theta^{2} \; d\theta = \frac{2}{3}$$
3. 연속 확률밀도에 대한 베이즈 이론
이전 절에서 확인했듯이 이산 확률 버전의 총 확률의 법칙을 연속 사전확률 버전으로 변경하였습니다. 이처럼 베이즈 이론도 저희가 처음에 이산확률에 대해서 정의했기때문에 연속확률에 대해서 바꾸어 정의해야합니다. 그에 대한 정확한 정리는 아래와 같습니다.
정리(베이즈 이론)
$\theta$가 확률 밀도함수 $f(\theta)$를 따르고 $[a, b]$ 사이의 연속적인 모수(parameter), $x$를 이산 확률변수, 그리고 $p(x|\theta)$를 우도로 가진다고 했을 때 베이즈 공식은 아래와 같이 변한다.
$$f(\theta|x)d\theta = \frac{p(x|\theta)f(\theta)d\theta}{p(x)} = \frac{p(x|\theta)f(\theta)d\theta}{\int_{a}^{b} p(x|\theta)f(\theta) \; d\theta}$$
위 정리를 간단하게 증명해보도록 하겠습니다. 핵심 아이디어는 연속 확률변수를 이산 확률변수처럼 쓸 수 있도록 만든 뒤 그 상태에서 이산 확률변수일 때의 베이즈 이론을 사용하는 것입니다. 이때 연속 확률변수를 이산 확률변수처럼 쓸 수 있는 방법은 연속 확률변수를 특정 범위로 쪼개어 생각하는 것입니다.
먼저, $\Theta$를 $\theta$를 만드는 확률변수라고 하겠습니다. 그리고 사건 $H$를 $\theta$ 주변에 아주 작은 범위 $d\theta$와 동일한 $\Theta$라고 가정하겠습니다. 즉, $\Theta = [\theta - d\theta/2, \theta + d\theta/2]$인 사건입니다. 그 다음에 사건 $D$를 데이터의 값으로 $x$라고 하겠습니다.
그러면 정리의 가정에 의해서 $\theta$는 확률 밀도함수 $f(\theta)$를 따르는 것을 알고 있으므로 사건 $H$가 발생할 확률은 $f(\theta)$에 $\Theta$의 길이를 곱한 것입니다. 중요한 것은 $f(\theta)$가 확률이 아니라는 것에 주의하세요. 그리면 $P(H) = f(\theta)d\theta$입니다. 그리고 사건 $D$가 발생할 확률은 어차피 $x$가 이산 확률변수이므로 확률 질량함수 $p(x)$를 따릅니다. 따라서 $P(D) = p(x)$입니다. 마지막으로 우도 $P(D|H) = p(x|\theta)$입니다. 이제 여기에 이산 확률변수일 때의 베이즈 이론을 적용하면 됩니다.
$$f(\theta|x)d\theta = P(H|D) = \frac{P(D|H)P(H)}{P(D)} = \frac{p(x|\theta)f(\theta)d\theta}{p(x)}$$
그러면 간단하게 증명할 수 있습니다.
식을 자세히 보면 $d\theta$가 있는 것을 볼 수 있습니다. 이것은 $f(\theta)$가 확률이 아니기 때문에 확률로 만들기 위해서 명시적으로 붙히는 것입니다. 만약 명확하다면 굳이 $d\theta$를 붙히지 않아도 됩니다.
$$f(\theta|x) = P(H|D) = \frac{P(D|H)P(H)}{P(D)} = \frac{p(x|\theta)f(\theta)}{p(x)}$$
4. 연속 사전확률을 가지는 경우의 베이즈 추론
이제 모든 준비는 끝났습니다. 준비 기간이 길었지만 본격적으로 이전 예제를 통해서 베이즈 추론을 진행해보도록 하겠습니다.
예제5. 예제3, 예제4의 결과를 통해 베이즈 추론을 해보도록 하겠습니다. 예제의 조건은 예제3과 동일합니다. 이때 $\theta$에 대한 사후 확률을 구해보도록 하겠습니다.
이산 사전확률을 가지는 경우에 베이즈 추론을 해본 분들이라면 베이즈 추론 표를 완성했던것을 기억하실 겁니다. 연속 사전확률을 가지는 경우에도 크게 다르지 않습니다. 다만 다른 점은 이산 사전확률의 경우 가설의 개수가 2개, 3개와 같이 정확하게 떨어졌지만 연속 사전확률의 경우 정확한 개수가 없이 범위만 주어져있습니다. 따라서 이산 사전확률에서 가능한 가설의 개수만큼 베이즈 추론 표를 완성했지만 연속 사전확률은 1개만 작성하면 됩니다. 아래의 표를 보면 더 빠르게 이해할 수 있을 겁니다.
가설 | 사전확률 | 우도 | 베이즈 분자식 | 사후확률 |
$\theta$ | $f(\theta)$ | $p(x=1|\theta)$ | $p(x=1|\theta)f(\theta)$ | $f(\theta|x=1)$ |
$\theta$ | $2\theta$ | $\theta$ | $2\theta^{2}$ | $3\theta^{3}$ |
total | $\frac{2}{3}$ | 1 |
4.1. 고른 사전확률
바로 이전 예제에서는 가설에 대한 사전확률이 주어져서 사후확률을 계산하였습니다. 그런데 통상적으로 생각해보면 가설에 대한 사전확률은 쉽게 알 수 없습니다.
예를 들어 바로 이전의 동전 예제의 경우 $\theta$가 확률밀도함수 $f(\theta) = 2\theta$를 따르는 것은 알고 있었지만 일반적으로는 누가 동전이 앞면이 나올 확률이 항상 $f(\theta) = 2\theta$를 따르는 것을 알 수 있을 까요? 즉, 저희는 이제 가설에 대한 사전확률이 주어져있지 않은 경우에 대해서도 베이즈 추론을 해야한다는 점입니다.
하지만 사후확률을 구하기 위해서는 항상 사전확률은 알고 있어야합니다. 이때 처음에 사용 가능한 사전확률은 고른 사전확률입니다. 즉, $f(\theta) = 1$이죠. 가설에 대한 아무런 정보가 없기 때문에 전 구간에 대해서 해당 가설이 균등하게 분포한다고 가정할 수 밖에 없습니다. 아래의 예제를 보도록 하겠습니다.
예제6. 예제5와 동일한 조건이지만 가설에 대한 사전확률만 $f(\theta) = 1$이라고 가정하고 베이즈 추론표를 완성해보도록 하겠습니다.
가설 | 사전확률 | 우도 | 베이즈 분자식 | 사후확률 |
$\theta$ | $f(\theta)$ | $p(x=1|\theta)$ | $p(x=1|\theta)f(\theta)$ | $f(\theta|x=1)$ |
$\theta$ | $1$ | $\theta$ | $\theta$ | $2\theta$ |
total | $\frac{1}{2}$ | 1 |
당연하게도 이전 예제의 사전확률과 다르기 때문에 사후확률이 다른 것을 볼 수 있습니다. 따라서 앞으로는 어떤 사전확률을 선택하느냐에 따라서 사후확률이 달라지므로 사전확률을 잘 선택하는 방법도 아는 것이 중요하겠습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[22].베이즈 추론 5 - 연속 사전확률과 연속 데이터를 가지는 경우에 대하여 (0) | 2020.04.17 |
---|---|
기초통계학[21]. 베타 분포(Beta Distribution) (0) | 2020.04.15 |
기초통계학[19].베이즈 추론 3 - 오즈(Odds) (0) | 2020.04.09 |
기초통계학[18].베이즈 추론 2 - 확률론적 예측 (0) | 2020.04.06 |
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |