안녕하세요. 오늘은 지난 시간의 기초통계학[19].베이즈 추론 2 - 확률론적 예측(https://everyday-image-processing.tistory.com/35)에 이어서 다소 생소한 개념인 오즈(Odds)에 대해서 알아보겠습니다.
1. 오즈(Odds)
오즈는 사실 어려운 개념은 아닙니다. 간단하게 이야기하면 두 사건이 발생할 확률의 비율을 표현한 것입니다. 이를 좀 더 정확하게 이야기하면 사건 $E$에 대한 다른 사건 $E^{'}$의 오즈는 두 사건이 발생할 확률의 비율인 $\frac{P(E)}{P(E^{'})}$을 의미합니다. 만약 $E^{'}$가 특정되지 않는 경우 사건 $E$의 여집합, 즉 $E^{c}$로 가정하기도 합니다. 따라서 사건 $E$의 오즈 $O(E) = \frac{P(E)}{P(E^{c})}$로 정의됩니다.
예를 들어서 비가 올 오즈, 즉 $O(rain) = 2$라면 비가 올 확률은 비가 오지 않을 확률의 2배임을 알 수 있습니다.
다른 예시로 공평한 동전이 있다고 가정하겠습니다. 이 동전 앞면이 나오는 오즈, 즉 $O(head) = \frac{\frac{1}{2}}{\frac{1}{2}} = 1$로 이 경우에는 앞면의 오즈가 '50-50'라고 합니다.
또 다른 예시로 육면체의 주사위가 있다고 가정하겠습니다. 굴렸을 때 4가 나올 오즈, 즉 $O(4) = \frac{\frac{1}{6}}{\frac{5}{6}} = \frac{1}{5}$입니다.
오즈를 구하는 공식은 기본적으로 사건의 확률을 활용하기 때문에 오즈를 알고 있다면 확률을 구할 수 있고, 확률을 알고 있다고 오즈를 알 수 있습니다.
- 확률을 알고 있는 경우, 사건 $E$가 발생할 확률을 $p$라고 하면 사건 $E$의 오즈는 $O(E) = \frac{p}{1 - p}$이다.
- 오즈를 알고 있는 경우, 사건 $E$의 오즈가 $q$라고 하면 사건 $E$의 확률은 $P(E) = \frac{q}{1 + q}$이다.
이 오즈는 확률이 아닌 비율이기 때문에 범위가 0부터 1이 아닌 0부터 $\infty$이고, 여사건 $E^{c}$의 오즈는 사건 $E$의 오즈의 역수로 주어집니다. 즉 $O(E^{c}) = \frac{1}{O(E)}$입니다.
2. 오즈 추론
이전에 베이즈 추론에서 가설에 대한 사전 확률을 나중에 데이터를 바탕으로 사후 확률을 계산하였습니다. 이를 오즈에도 사전 오즈(prior odds)를 데이터를 바탕으로 사후 오즈(posterior odds)를 계산하는 방식으로 동일하게 적용할 수 있습니다. 베이즈 추론에서도 데이터가 주어졌을 때 그 데이터가 가설에 있어 사후 확률에 영향을 끼치는 것을 알 수 있었습니다. 오즈 추론에서도 동일하게 데이터가 오즈에 영향을 끼친다는 것을 전제로 하고 있습니다. 자세한 예시를 통해서 알아보도록 하겠습니다.
마르판 증후군이라는 질병이 있습니다. 이 질병의 특징은 15000명의 사람 중 1명 꼴로 나타나는 유전 질환의 일종으로 특정 결합 조직에 이상을 끼치는 질병입니다. 이 마르판 증후군의 중요한 특성은 3가지의 안구와 관련된 증상이 나타난다는 점입니다. 각막이 원래 위치에 있지 않고 움직이는 증상, 근시, 안구 내부에서 안구 뒷쪽의 부분이 서로 떨어지는 증상입니다. 마르판 증후군을 가지는 약 70%의 사람들은 위의 3개의 증상 중 적어도 1개를 보인다고 합니다. 그리고 오직 7%의 사람들은 마르판 증후군을 가지고 있지 않지만 위 3개의 증상을 적어도 1개를 보인다고 합니다.
만약 어떤 사람이 위 3개의 증상 중 1개의 증상을 가지고 있다면 그 사람이 마르판 증후군을 가지는 오즈는 무엇일까요?
이는 전형적인 베이즈 추론 문제입니다. 진행하기 전에 몇 가지 기호를 정의하고 넘어가도록 하겠습니다.
- $M$ = 마르판 증후군을 가지고 있는 사람
- $M^{c}$ = 마르판 증후군을 가지고 있지 않은 사람
- $F$ = 안구 증상들 중 적어도 1개의 증상을 가지고 있는 사람, 즉 데이터입니다.
오즈를 계산하기 전에 사전 확률과 사후 확률을 계산하고 넘어가도록 하겠습니다. 먼저, 가설에 대한 사전 확률과 우도를 계산할 수 있습니다.
$$P(M) = \frac{1}{15000}, P(F|M) = 0.7, P(F|M^{c}) = 0.07$$
따라서 이전에 했듯이 베이즈 추론 표로 작성하면 아래와 같습니다.
가설 | 사전 확률 | 우도 | 베이즈 분자식 | 사후 확률 |
$H$ | $P(H)$ | $P(F|M)$ | $P(F|H)P(H)$ | $P(H|F)$ |
$M$ | 0.000067 | 0.7 | 0.0000467 | 0.00066 |
$M^{c}$ | 0.999933 | 0.07 | 0.069995 | 0.99933 |
total | 1 | 0.07004 | 1 |
이 결과를 분석해보면 위의 증상을 가지고 있더라도 그 사람이 마르판 증후군을 가지고 있다고 보기에는 여전히 힘든 확률입니다. 이번에는 오즈를 분석해보도록 하겠습니다.
$$O(M) = \frac{P(M)}{P(M^{c})} \approx 0.000067$$
사후 오즈는 사후 확률과 동일한 개념으로 사용될 수 있습니다. 즉 데이터가 주어졌을 때 가설의 오즈라고 보면 될 거 같네요. 이를 기호로 표현하여 계산하면 아래와 같습니다.
$$O(M|F) = \frac{P(M|F)}{P(M^{c}|F)} = \frac{P(F|M)P(M)}{P(F|M^{c})P(M^{c})} = \frac{P(F|M)}{P(F|M^{c})} O(M)= 0.000667$$
이 결과를 해석해보면 안구관련 증상을 가지고 있는 사람을 보면 단순히 마르판 증후군에 대한 오즈보다 약 10배 정도 증가한 것을 볼 수 있습니다. 즉, 이 경우에는 사후 확률가 아닌 사후 오즈로 분석하면 안구 관련 증상이 실제로 마르판 증후군 판별에 있어 중요한 단서라고 생각할 수 있습니다.
예시의 자세한 설명은 아래의 위키피디아를 참고해주세요. https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%ED%8C%90_%EC%A6%9D%ED%9B%84%EA%B5%B0
3. 베이즈 요소와 증거의 강도
바로 이전에서 예시에서 기존의 오즈보다 10배 증가한 것을 볼 수 있었습니다. 여기서 '10'이 베이즈 요소라고 합니다. 이를 정확하게 정의하면 가설 $H$와 데이터 $D$에 대해서 베이즈 요소는 우도의 비율입니다. 즉 $\frac{P(D|H)}{P(D|H^{c})}$로 정의됩니다.
위의 예시에서 언급했지만 결론적으로는 $O(H|D) = \frac{P(D|H)}{P(D|H^{c})} \cdot O(M)$을 계산하여 사후 오즈를 계산할 수 있었습니다. 이를 통해 알 수 있는 사실은 베이즈 요소의 값에 따라서 해당 데이터가 가설에 준하는 증거가 되는 지, 반하는 증거가 되는 지, 또는 의미 없는 지에 대해서 알 수 있습니다.
- 베이즈 요소가 1보다 큰 경우, 사후 오즈는 사전 오즈보다 더 큰 값을 가집니다. 따라서 데이터는 가설에 준하는 증거가 된다고 할 수 있습니다.
- 베이즈 요소가 1보다 작은 경우, 사후 오즈는 사전 오즈보다 더 작은 값을 가집니다. 따라서 데이터는 가설에 반하는 증거가 된다고 할 수 있습니다.
- 베이즈 요소가 1인 경우, 사후 오즈는 사전 오즈와 같은 값을 가집니다. 따라서 데이터는 가설에 대해서 의미가 없습니다.
다른 재미있는 예시를 통해 확인해보겠습니다.
사건 현장에서 혈액을 검사하는 것은 범인이 누군지 밝히는 데 있어 중요한 단서가 되기도 합니다. 이때 두 명의 범인이 혈액을 남기고 갔다고 가정하겠습니다. 여기서 용의자 A의 혈액형이 O형임을 알게 되었습니다. 뿐만 아니라 범죄 현장에서 찾은 두 혈액이 각각 O형과 AB형임을 알게 되었습니다. 범죄가 일어난 지역 주변에서 O형인 사람들은 약 60%이고, A형인 사람들은 약 1%라고 합니다. 그렇다면 이 범죄 현장에서 발견된 혈액이 용의자 A가 범죄 현장에 존재했다는 것에 대한 증거라고 할 수 있을 까요?
본격적으로 시작하기 전에 이번에도 몇 가지 기호를 정하고 진행하도록 하겠습니다.
- $S$ = 용의자 A와 다른 범인이 범죄 현장에 있었다.
- $S^{c}$ = 용의자 A가 아닌 다른 범인 2명이 범죄 현장에 있었다.
- $D$ = O형과 AB형의 혈액이 범죄 현장에서 발견되었다.
어떤 데이터가 가설에 대한 증거가 되기 위해서는 베이즈 요소가 1보다 커야된다고 하였습니다. 따라서 저희는 용의자 A가 사건 현장에 있었다는 베이즈 요소를 계산하면 될 거 같습니다. 즉, 아래의 식입니다.
$$BF_{A} = \frac{P(D|S)}{P(D|S^{c})}$$
만약 용의자 A가 범죄 현장에 있었다고 가정하면 다른 한명의 피는 AB형이고 AB형은 해당 지역에서 약 1%만 가지고 있기 때문에 $P(D|S) = 0.01$임을 알 수 있습니다.
만약 용의자 A가 범죄 현장에 있지 않았다고 가정하면 다른 범인 2명이 범죄 현장에 있었을 것입니다. 이때 각 범인의 혈액형은 O형, AB형입니다. 따라서 $P(D|S^{c}) = 2 \cdot 0.6 \cdot 0.01$입니다. 여기서 2를 곱하는 이유는 각 범인의 혈액형이 (O형, AB형)이거나 (AB형, O형)임을 고려한 것입니다.
이를 통해서 베이즈 요소를 계산하면 $BF_{A} = \frac{P(D|S)}{P(D|S^{c})} = 0.83$이므로 범죄 현장에서 용의자 A가 있었다고 보기는 힘들거 같습니다.
이후에 경찰이 새로운 용의자 B를 찾았습니다. 이 용의자 B의 혈액형은 AB형이라고 하네요. 용의자 A와 같이 동일하게 베이즈 요소를 계산해보겠습니다.
$$BF_{B} = \frac{P(D|S)}{P(D|S^{c})} = \frac{0.6}{2 \cdot 0.6 \cdot 0.01} = 50$$
1보다 훨씬 크므로 이 혈액 증거들은 범죄 현장에 용의자 B가 있었다는 것을 뒷받침하는 것이라고 볼 수 있습니다.
4. 반복 오즈 추론
이전에 베이즈 추론에서 데이터가 여러 번 얻었을 때 반복해서 사후 확률을 계산했던 거 처럼 오즈 역시 동이랗게 할 수 있습니다.
이를 위해서는 각각의 데이터 서로 조건적 독립이라는 조건을 만족해야합니다. 이는 이전에 조건부확률에 대해서 설명할 때 언급한 내용입니다. 다시 상기하면 $P(D_{1}, D_{2}|H) = P(D_{1}|H)P(D_{2}|H)$를 만족한다면 조건적 독립이라고 말합니다. 이제 $D_{1}$, $D_{2}$를 서로 조건적 독립이라고 가정했을 때 $BF_{i} = \frac{P(D_{i}|H)}{P(D_{i}|H^{c})}$라고 하겠습니다. 그러면 오즈의 정의에 의해서 처음 데이터 $D_{1}$에 대한 사후 오즈는 $O(H|D_{1}) = BF_{1}O(H)$로 계산할 수 있습니다. 여기서 새로운 데이터 $D_{2}$가 주어진다면 사후 오즈는 $O(H|D_{1}, D_{2}) = BF_{2}O(H|D_{1}) = BF_{2}BF_{1}O(H)$로 계산할 수 있습니다.
5. 로그 오즈
로그는 곱셈을 덧셈으로 바꾸는 아주 좋은 성질을 가지고 있기 때문에 종종 활용됩니다. 오즈를 반복 추론할 때도 많이 사용되는 기법입니다. $D_{1}$, $D_{2}$가 서로 조건적 독립일 경우 $O(H|D_{1}, D_{2}) = BF_{2}O(H|D_{1}) = BF_{2}BF_{1}O(H)$가 된다고 언급하였습니다. 여기에 양변에 자연 log를 취하면 아래와 같이 변합니다.
$$\ln{O(H|D_{1}, D_{2})} = \ln{BF_{2}} + \ln{BF_{1}} + \ln{O(H)}$$
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[21]. 베타 분포(Beta Distribution) (0) | 2020.04.15 |
---|---|
기초통계학[20].베이즈 추론 4 - 연속 사전확률을 가지는 경우에 대하여 (0) | 2020.04.12 |
기초통계학[18].베이즈 추론 2 - 확률론적 예측 (0) | 2020.04.06 |
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |
기초통계학[16].최대 우도 추정법 (0) | 2020.03.31 |