안녕하세요. 오늘은 지난 시간의 기초통계학[19].베이즈 추론 2 - 확률론적 예측(https://everyday-image-processing.tistory.com/35)에 이어서 다소 생소한 개념인 오즈(Odds)에 대해서 알아보겠습니다.
1. 오즈(Odds)
오즈는 사실 어려운 개념은 아닙니다. 간단하게 이야기하면 두 사건이 발생할 확률의 비율을 표현한 것입니다. 이를 좀 더 정확하게 이야기하면 사건 $E$에 대한 다른 사건 $E^{'}$의 오즈는 두 사건이 발생할 확률의 비율인 $\frac{P(E)}{P(E^{'})}$을 의미합니다. 만약 $E^{'}$가 특정되지 않는 경우 사건 $E$의 여집합, 즉 $E^{c}$로 가정하기도 합니다. 따라서 사건 $E$의 오즈 $O(E) = \frac{P(E)}{P(E^{c})}$로 정의됩니다.
예를 들어서 비가 올 오즈, 즉 $O(rain) = 2$라면 비가 올 확률은 비가 오지 않을 확률의 2배임을 알 수 있습니다.
다른 예시로 공평한 동전이 있다고 가정하겠습니다. 이 동전 앞면이 나오는 오즈, 즉 $O(head) = \frac{\frac{1}{2}}{\frac{1}{2}} = 1$로 이 경우에는 앞면의 오즈가 '50-50'라고 합니다.
또 다른 예시로 육면체의 주사위가 있다고 가정하겠습니다. 굴렸을 때 4가 나올 오즈, 즉 $O(4) = \frac{\frac{1}{6}}{\frac{5}{6}} = \frac{1}{5}$입니다.
오즈를 구하는 공식은 기본적으로 사건의 확률을 활용하기 때문에 오즈를 알고 있다면 확률을 구할 수 있고, 확률을 알고 있다고 오즈를 알 수 있습니다.
- 확률을 알고 있는 경우, 사건 $E$가 발생할 확률을 $p$라고 하면 사건 $E$의 오즈는 $O(E) = \frac{p}{1 - p}$이다.
- 오즈를 알고 있는 경우, 사건 $E$의 오즈가 $q$라고 하면 사건 $E$의 확률은 $P(E) = \frac{q}{1 + q}$이다.
이 오즈는 확률이 아닌 비율이기 때문에 범위가 0부터 1이 아닌 0부터 $\infty$이고, 여사건 $E^{c}$의 오즈는 사건 $E$의 오즈의 역수로 주어집니다. 즉 $O(E^{c}) = \frac{1}{O(E)}$입니다.
2. 오즈 추론
이전에 베이즈 추론에서 가설에 대한 사전 확률을 나중에 데이터를 바탕으로 사후 확률을 계산하였습니다. 이를 오즈에도 사전 오즈(prior odds)를 데이터를 바탕으로 사후 오즈(posterior odds)를 계산하는 방식으로 동일하게 적용할 수 있습니다. 베이즈 추론에서도 데이터가 주어졌을 때 그 데이터가 가설에 있어 사후 확률에 영향을 끼치는 것을 알 수 있었습니다. 오즈 추론에서도 동일하게 데이터가 오즈에 영향을 끼친다는 것을 전제로 하고 있습니다. 자세한 예시를 통해서 알아보도록 하겠습니다.
마르판 증후군이라는 질병이 있습니다. 이 질병의 특징은 15000명의 사람 중 1명 꼴로 나타나는 유전 질환의 일종으로 특정 결합 조직에 이상을 끼치는 질병입니다. 이 마르판 증후군의 중요한 특성은 3가지의 안구와 관련된 증상이 나타난다는 점입니다. 각막이 원래 위치에 있지 않고 움직이는 증상, 근시, 안구 내부에서 안구 뒷쪽의 부분이 서로 떨어지는 증상입니다. 마르판 증후군을 가지는 약 70%의 사람들은 위의 3개의 증상 중 적어도 1개를 보인다고 합니다. 그리고 오직 7%의 사람들은 마르판 증후군을 가지고 있지 않지만 위 3개의 증상을 적어도 1개를 보인다고 합니다.
만약 어떤 사람이 위 3개의 증상 중 1개의 증상을 가지고 있다면 그 사람이 마르판 증후군을 가지는 오즈는 무엇일까요?
이는 전형적인 베이즈 추론 문제입니다. 진행하기 전에 몇 가지 기호를 정의하고 넘어가도록 하겠습니다.
- $M$ = 마르판 증후군을 가지고 있는 사람
- $M^{c}$ = 마르판 증후군을 가지고 있지 않은 사람
- $F$ = 안구 증상들 중 적어도 1개의 증상을 가지고 있는 사람, 즉 데이터입니다.
오즈를 계산하기 전에 사전 확률과 사후 확률을 계산하고 넘어가도록 하겠습니다. 먼저, 가설에 대한 사전 확률과 우도를 계산할 수 있습니다.
$$P(M) = \frac{1}{15000}, P(F|M) = 0.7, P(F|M^{c}) = 0.07$$
따라서 이전에 했듯이 베이즈 추론 표로 작성하면 아래와 같습니다.
가설 | 사전 확률 | 우도 | 베이즈 분자식 | 사후 확률 |
$H$ | $P(H)$ | $P(F|M)$ | $P(F|H)P(H)$ | $P(H|F)$ |
$M$ | 0.000067 | 0.7 | 0.0000467 | 0.00066 |
$M^{c}$ | 0.999933 | 0.07 | 0.069995 | 0.99933 |
total | 1 | 0.07004 | 1 |
이 결과를 분석해보면 위의 증상을 가지고 있더라도 그 사람이 마르판 증후군을 가지고 있다고 보기에는 여전히 힘든 확률입니다. 이번에는 오즈를 분석해보도록 하겠습니다.
$$O(M) = \frac{P(M)}{P(M^{c})} \approx 0.000067$$
사후 오즈는 사후 확률과 동일한 개념으로 사용될 수 있습니다. 즉 데이터가 주어졌을 때 가설의 오즈라고 보면 될 거 같네요. 이를 기호로 표현하여 계산하면 아래와 같습니다.
$$O(M|F) = \frac{P(M|F)}{P(M^{c}|F)} = \frac{P(F|M)P(M)}{P(F|M^{c})P(M^{c})} = \frac{P(F|M)}{P(F|M^{c})} O(M)= 0.000667$$
이 결과를 해석해보면 안구관련 증상을 가지고 있는 사람을 보면 단순히 마르판 증후군에 대한 오즈보다 약 10배 정도 증가한 것을 볼 수 있습니다. 즉, 이 경우에는 사후 확률가 아닌 사후 오즈로 분석하면 안구 관련 증상이 실제로 마르판 증후군 판별에 있어 중요한 단서라고 생각할 수 있습니다.
예시의 자세한 설명은 아래의 위키피디아를 참고해주세요. https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%ED%8C%90_%EC%A6%9D%ED%9B%84%EA%B5%B0
마르판 증후군 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 마르판 증후군(Marfan syndrome, MFS)은 유전 질환의 하나로 결합 조직에 결함이 있는 증후군이다.[2] 키가 매우 크고, 사지가 길며, 허파와 눈, 심장, 혈관 등에 이상이 나타나기도 한다. 1896년 이를 처음 보고한 프랑스의 소아과 의사 앙투안 마르팡의 이름을 따서 붙여졌다. 주로 장신 선수들에게 자주 일어나며, 심장 대동맥 파열로 인한 급사가 대부분이다. 전 농구 선수 한기범이 이 질병으로 2차례 수술
ko.wikipedia.org
3. 베이즈 요소와 증거의 강도
바로 이전에서 예시에서 기존의 오즈보다 10배 증가한 것을 볼 수 있었습니다. 여기서 '10'이 베이즈 요소라고 합니다. 이를 정확하게 정의하면 가설 $H$와 데이터 $D$에 대해서 베이즈 요소는 우도의 비율입니다. 즉 $\frac{P(D|H)}{P(D|H^{c})}$로 정의됩니다.
위의 예시에서 언급했지만 결론적으로는 $O(H|D) = \frac{P(D|H)}{P(D|H^{c})} \cdot O(M)$을 계산하여 사후 오즈를 계산할 수 있었습니다. 이를 통해 알 수 있는 사실은 베이즈 요소의 값에 따라서 해당 데이터가 가설에 준하는 증거가 되는 지, 반하는 증거가 되는 지, 또는 의미 없는 지에 대해서 알 수 있습니다.
- 베이즈 요소가 1보다 큰 경우, 사후 오즈는 사전 오즈보다 더 큰 값을 가집니다. 따라서 데이터는 가설에 준하는 증거가 된다고 할 수 있습니다.
- 베이즈 요소가 1보다 작은 경우, 사후 오즈는 사전 오즈보다 더 작은 값을 가집니다. 따라서 데이터는 가설에 반하는 증거가 된다고 할 수 있습니다.
- 베이즈 요소가 1인 경우, 사후 오즈는 사전 오즈와 같은 값을 가집니다. 따라서 데이터는 가설에 대해서 의미가 없습니다.
다른 재미있는 예시를 통해 확인해보겠습니다.
사건 현장에서 혈액을 검사하는 것은 범인이 누군지 밝히는 데 있어 중요한 단서가 되기도 합니다. 이때 두 명의 범인이 혈액을 남기고 갔다고 가정하겠습니다. 여기서 용의자 A의 혈액형이 O형임을 알게 되었습니다. 뿐만 아니라 범죄 현장에서 찾은 두 혈액이 각각 O형과 AB형임을 알게 되었습니다. 범죄가 일어난 지역 주변에서 O형인 사람들은 약 60%이고, A형인 사람들은 약 1%라고 합니다. 그렇다면 이 범죄 현장에서 발견된 혈액이 용의자 A가 범죄 현장에 존재했다는 것에 대한 증거라고 할 수 있을 까요?
본격적으로 시작하기 전에 이번에도 몇 가지 기호를 정하고 진행하도록 하겠습니다.
- $S$ = 용의자 A와 다른 범인이 범죄 현장에 있었다.
- $S^{c}$ = 용의자 A가 아닌 다른 범인 2명이 범죄 현장에 있었다.
- $D$ = O형과 AB형의 혈액이 범죄 현장에서 발견되었다.
어떤 데이터가 가설에 대한 증거가 되기 위해서는 베이즈 요소가 1보다 커야된다고 하였습니다. 따라서 저희는 용의자 A가 사건 현장에 있었다는 베이즈 요소를 계산하면 될 거 같습니다. 즉, 아래의 식입니다.
$$BF_{A} = \frac{P(D|S)}{P(D|S^{c})}$$
만약 용의자 A가 범죄 현장에 있었다고 가정하면 다른 한명의 피는 AB형이고 AB형은 해당 지역에서 약 1%만 가지고 있기 때문에 $P(D|S) = 0.01$임을 알 수 있습니다.
만약 용의자 A가 범죄 현장에 있지 않았다고 가정하면 다른 범인 2명이 범죄 현장에 있었을 것입니다. 이때 각 범인의 혈액형은 O형, AB형입니다. 따라서 $P(D|S^{c}) = 2 \cdot 0.6 \cdot 0.01$입니다. 여기서 2를 곱하는 이유는 각 범인의 혈액형이 (O형, AB형)이거나 (AB형, O형)임을 고려한 것입니다.
이를 통해서 베이즈 요소를 계산하면 $BF_{A} = \frac{P(D|S)}{P(D|S^{c})} = 0.83$이므로 범죄 현장에서 용의자 A가 있었다고 보기는 힘들거 같습니다.
이후에 경찰이 새로운 용의자 B를 찾았습니다. 이 용의자 B의 혈액형은 AB형이라고 하네요. 용의자 A와 같이 동일하게 베이즈 요소를 계산해보겠습니다.
$$BF_{B} = \frac{P(D|S)}{P(D|S^{c})} = \frac{0.6}{2 \cdot 0.6 \cdot 0.01} = 50$$
1보다 훨씬 크므로 이 혈액 증거들은 범죄 현장에 용의자 B가 있었다는 것을 뒷받침하는 것이라고 볼 수 있습니다.
4. 반복 오즈 추론
이전에 베이즈 추론에서 데이터가 여러 번 얻었을 때 반복해서 사후 확률을 계산했던 거 처럼 오즈 역시 동이랗게 할 수 있습니다.
이를 위해서는 각각의 데이터 서로 조건적 독립이라는 조건을 만족해야합니다. 이는 이전에 조건부확률에 대해서 설명할 때 언급한 내용입니다. 다시 상기하면 $P(D_{1}, D_{2}|H) = P(D_{1}|H)P(D_{2}|H)$를 만족한다면 조건적 독립이라고 말합니다. 이제 $D_{1}$, $D_{2}$를 서로 조건적 독립이라고 가정했을 때 $BF_{i} = \frac{P(D_{i}|H)}{P(D_{i}|H^{c})}$라고 하겠습니다. 그러면 오즈의 정의에 의해서 처음 데이터 $D_{1}$에 대한 사후 오즈는 $O(H|D_{1}) = BF_{1}O(H)$로 계산할 수 있습니다. 여기서 새로운 데이터 $D_{2}$가 주어진다면 사후 오즈는 $O(H|D_{1}, D_{2}) = BF_{2}O(H|D_{1}) = BF_{2}BF_{1}O(H)$로 계산할 수 있습니다.
5. 로그 오즈
로그는 곱셈을 덧셈으로 바꾸는 아주 좋은 성질을 가지고 있기 때문에 종종 활용됩니다. 오즈를 반복 추론할 때도 많이 사용되는 기법입니다. $D_{1}$, $D_{2}$가 서로 조건적 독립일 경우 $O(H|D_{1}, D_{2}) = BF_{2}O(H|D_{1}) = BF_{2}BF_{1}O(H)$가 된다고 언급하였습니다. 여기에 양변에 자연 log를 취하면 아래와 같이 변합니다.
$$\ln{O(H|D_{1}, D_{2})} = \ln{BF_{2}} + \ln{BF_{1}} + \ln{O(H)}$$
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[21]. 베타 분포(Beta Distribution) (0) | 2020.04.15 |
---|---|
기초통계학[20].베이즈 추론 4 - 연속 사전확률을 가지는 경우에 대하여 (0) | 2020.04.12 |
기초통계학[18].베이즈 추론 2 - 확률론적 예측 (0) | 2020.04.06 |
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |
기초통계학[16].최대 우도 추정법 (0) | 2020.03.31 |