안녕하세요. 지난 시간의 기초통계학[25].공액 사전 확률분포 선택에 이어서 오늘은 예측 구간에 대해서 알아보도록 하겠습니다.
pmf $p(\theta)$와 pdf $f(\theta)$가 있다고 가정하겠습니다. 이때 각각의 $p(\theta)$, $f(\theta)$는 알지못하는 모수(unknown parameter) $\theta$에 대한 신뢰 정보를 표현한다고 가정하겠습니다.
그러면 $\theta$에 대한 $p$ 예측 구간(probability interval)은 $P(a \le \theta \le b) = p$인 구간 $[a, b]$로 정의됩니다.
예측 구간에 대한 자세한 설명은 위키피디아 문서를 참조해주시길 바랍니다. 이때, 이산 확률변수와 연속 확률변수에 대해서 비슷하지만 확률이 다르게 정의되기 때문에 각각의 경우에 대해서 알아보도록 하겠습니다.
-
이산 확률변수의 분포 pmf $p(\theta)$에 대해서 예측 구간은 $\sigma_{a \le \theta_{i} \le b} p(\theta_{i}) = p$를 만족하는 구간으로 정의됩니다.
-
연속 확률변수의 분포 pdf $f(\theta)$에 대해서 예측 구간은 $\int_{a}^{b} f(\theta) \; d\theta = p$를 만족하는 구간으로 정의됩니다.
그리고 예측 구간은 때때로 신용 구간(credible interval)이라고도 불립니다. 이는 신뢰 구간(confidence interval)과의 차이점을 두기 위해서 부르는 용어입니다. 신뢰 구간은 이후 포스팅에서 나오겠지만, 빈도론자 입장에서의 예측 구간이라고 보면 될 거 같습니다. 즉, 예측 구간은 베이즈론자 입장에서 생각한 알지못하는 어떤 모수의 신뢰도라고 생각하면 될거 같습니다.
예를 들어서 0.05 분위수와 0.55 분위수 사이는 0.5 예측 구간과 동일한 값을 가집니다.
분위수는 기초통계학[10]를 참조하시면 될 거 같습니다. 다시 한번 언급하면 확률 변수 $X$의 $p$ 분위수는 $P(X \le q_{p}) = p$인 $q_{p}$로 정의된다고 하였습니다. 따라서 0.05 분위수는 $P(X \le q_{0.05}) =0.05$인 구간을 의미합니다. 그리고 0.55 분위수는 $P(X \le q_{0.55}) = 0.55$인 구간을 의미합니다. 따라서 두 구간의 교집합이 0.5 예측 구간과 동일한 것을 알 수 있습니다. 이를 확장해서 생각해보면 0.25 분위수와 0.75 분위수 사이 역시 0.5 예측 구간과 동일한 값을 가지는 것을 알 수 있습니다. 그러므로 $\theta$에 대한 어떤 예측 구간은 유일하지 않다는 것을 알 수 있습니다.
위와 같이 분위수를 통해서 예측 구간을 정의할 수 있습니다. 이를 Q 표현(Q notation)이라고 합니다. 좀 더 자세하게 알아보겠습니다. $\theta$에 대한 $s$ 분위수는 $P(\theta \le q_{s}) = s$를 만족하는 $q_{s}$를 의미합니다. $s \le t$를 만족하는 $t$에 대해서 $s$ 분위수와 $t$ 분위수 사이의 확률은 $t - s$가 됨을 쉽게 알 수 있습니다. 이를 통해서 $p$ 예측 구간은 $t - s = p$를 만족하는 구간 $[q_{s}, q_{t}]$으로도 쓸 수 있음을 알 수 있습니다. 이는 곧 $t$, $s$가 위의 조건만 맞으면 어떠한 값이 되더라도 상관없음을 의미하며 따라서 유일하지 않은 구간이라는 것을 의미합니다.
따라서 위의 예시에서 0.5 예측 구간은 $[q_{0.05}, q_{0.55}]$, $[q_{0.25}, q_{0.75}]$로 쓸 수 있다는 것입니다. 또한 이는 유일한 표현이 아니며 $t$와 $s$가 $t- s = 0.5$만 만족하기만 하면 어떠한 구간으로도 표현할 수 있을 것입니다.
그렇다면 예측 구간은 어떤 의미를 가질까요?
지금까지 굉장히 많은 포스팅을 통해서 알아본 것은 베이즈 추론이였습니다. 특히 최대 우도 추정법에서 모수를 추정하였습니다. 그렇다면 그 모수가 정말 합리적인지 판단하는 방법이 무엇인지에 대해서는 생각하지 않았습니다. 물론 저희는 어떤 데이터를 기반으로 확률 분포가 어떤 모수를 가져야 해당 데이터가 나올 확률을 최대화 할 수 있는 지를 생각하였습니다. 이제 저희가 알고 싶은 것은 그 확률을 최대화하는 모수를 찾았다고 가정했을 때 그 모수가 얼마나 신뢰할 수 있는 지에 대해서 알아보고 싶은 것입니다.
마지막으로 확인해볼 것은 사전 확률분포를 모를 때 예측 구간을 기반으로 사전 확률분포를 잘 선택할 수 있는 방법에 대해서 설명해준다는 것입니다. 이를 주관적 예측 구간(subject probability interval)이라고 부릅니다. 아래의 예제를 통해서 좀 더 자세히 알아보도록 하겠습니다.
예제1. 2013년에 미국의 사우스 캐롤라이나 주의 어떤 지역에서 의회 의원을 위한 특별 선거가 있었다고 합니다. 선거는 공화당 마크 샌포드를 민주당 엘리자베스 콜버트 부쉬와의 대결이였습니다. $\theta$를 부쉬를 선호하는 해당 지역의 인구 비율이라고 하겠습니다. 이번 예제를 통해서 저희는 $\theta$에 대한 주관적 사전 확률분포를 구축하는 것이 목표입니다. 이를 통해서 아래의 사실을 인용하도록 하겠습니다.
-
샌포드는 전 사우스 캐롤라이나 주의 의원이면서 주지사였다고 합니다.
-
샌포드는 애팔래치안 트레일 콘서번시를 하이킹한다고 주장하면서 아르헨티나에서 사건을 일으킨 후 사임하였다고 합니다.
-
2013년에 샌포드는 공화당에서 15명의 반대자들을 이겼다고 합니다.
-
2012년에 대통령 선거에서 공화당의 롬니는 민주당 오바마를 58%에서 40%로 이겼다고 합니다.
-
콜버트 충돌 : 엘리자베스 콜버트 부쉬는 유명한 코미디언 스테판 콜버트와 형제라고 합니다.
언뜻 보기에는 저희가 $\theta$에 대한 사전 확률분포를 구축하는 데 있어 전혀 상관없는 정보로 보입니다. 이를 위해서 저희의 전략은 직관을 통해서 확률 구간을 구성한 뒤 이 구간과 거의 일치하는 베타 분포를 찾는 것으로 하겠습니다. 이때 베타 분포를 사용하는 이유는 베타 분포가 공액 사전 확률분포이기 때문입니다. 따라서 사후 확률분포를 추정하기에 더 간단하기 때문이죠. 물론!! 베타분포가 아닌 다른 분포로 해도 됩니다. 미리 말했다싶이 이것은 '주관적'이기 때문입니다.
단계 1. 0.5 및 0.9 예측 구간을 구성하기 위해서 위의 정보를 사용해야합니다. 이때 0.5, 0.9 예측 구간을 사용하는 것도 주관적이므로 다른 예측 구간을 사용해도 상관없습니다.
먼저 0.9 예측 구간을 생각해보도록 하겠습니다. 한 가지 강력한 사전 증거(prior evidence)는 "2012년에 대통령 선거에서 공화당의 롬니는 민주당 오바마를 58%에서 40%로 이겼다고 합니다."라는 사실입니다. 이는 곧 샌포드에 대한 부정적인 점을 고려할 때 저희가 샌포드의 투표 결과가 58% 이상을 넘을 것이라고는 생각하기 힘듭니다. 따라서 0.9 예측 구간의 최고값은 0.65라고 가정하겠습니다. 샌포드의 부정적인 면으로 인해서 투표 결과가 매우 낮아질 것이라고 생각해볼 수 있습니다. 따라서 최저값을 0.3이라고 가정하겠습니다.
그 다음으로 0.5 예측 구간을 생각해보도록 하겠습니다. 실제로 샌포드가 롬니보다 더 많은 표를 얻을 것이라고 생각하기에는 힘듭니다. 따라서 0.25 확률로 57%를 초과할 수 있을 것입니다. 그리고 샌포드가 42% 이하로 떨어질 확률을 0.25라고 하겠습니다.
단계 2. 위에서 정의한 0.5, 0.9 예측 구간을 기반으로 저희는 베타 분포를 선택할 수 있습니다. 베타 분포를 선택하는 기준은 이 구간들로 근사되는 베타 분포를 정해야합니다. 매트랩 함수를 통해서 계산해본 결과 $beta(11, 12)$가 가장 잘 근사되는 것을 알 수 있습니다. 따라서 $P([0.3, 0.65]) = 0.91$, $P([0.42, 0.57]) = 0.52$임을 알 수 있습니다. 실제로 저희는 저희가 가정한 결과를 통해서 얻은 베타 분포를 기반으로 예측 구간을 조사해본 결과 0.91 예측 구간, 0.52 예측 구간을 얻을 수 있었습니다. 이는 굉장히 잘 근사된 결과라고 볼 수 있습니다!!
따라서 저희의 사전 확률분포는 $beta(11, 12)$로 선택하는 것이 합리적이라는 사실을 알 수 있습니다.
위와 같은 방법으로 사전 확률분포를 선택할 수 있었습니다. 하지만 이 포스팅을 보시는 많은 분들이 많이 의아해하실 겁니다. 예를 들어서 베타 분포가 아닌 다른 분포로 근사하면 안되는 건지, 다른 예측 구간을 고려해서는 안되는 건지, 투표 결과가 더 높거나 낮을 확률을 다른 값으로 정해서는 안되는 건지 등등... 모두 상관없습니다!!! 왜냐하면 이들은 전부 주관적인 해석을 바탕으로 얻어졌기 때문입니다. 다른 분포, 다른 예측 구간, 다른 확률로 정하더라도 상관없습니다. 어떤 사전 확률분포를 선택하느냐에 따라서 결과가 달라지는 것은 유의하셔야합니다.
이전에는 사전 확률분포를 모를 때는 그냥 균등 분포, 정규 분포라고 먼저 가정한 뒤에 베이즈 추론을 하였습니다. 하지만 적어도 이번 예제에서는 어떠한 사실들을 바탕으로 합리적인 사전 확률분포를 선택했다라는 점에서 나름 의미있는 결과라고 볼 수 있습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[28].귀무가설의 유의성 검정 1 (0) | 2020.07.14 |
---|---|
기초통계학[27].빈도론자 관점의 통계학 (0) | 2020.07.11 |
기초통계학[25].공액 사전 확률분포 선택 (0) | 2020.06.30 |
기초통계학[24].공액 사전 확률분포 2 (0) | 2020.04.27 |
기초통계학[23].공액 사전 확률분포 1 (0) | 2020.04.22 |