안녕하세요. 지난 포스팅의 기초통계학[33].귀무가설의 유의성 검정 6을 마지막으로 NHST를 끝냈습니다. 오늘은 지금까지 알아보았던 베이즈 추론과 빈도주의 추론에 대해서 간단하게 정리하는 시간을 가져보도록 하겠습니다.
1. 베이즈 추론
빈도주의 추론 이전에 저희는 베이즈 추론을 오랫동안 공부하였습니다.하지만, 공부한 지 조금 오래되었기 때문에 살짝 복습하고 넘어가도록 하겠습니다. 베이즈 추론을 위한 그 핵심 이론이 베이즈 이론, 또는 베이즈 공식이라고 언급하였습니다. 베이즈 공식은 조건부 확률을 다른 방식으로 구할 수 있다는 것을 보여주는 공식입니다. 아래의 식을 참조해주세요.
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
이 식을 기반으로 어떤 데이터 $D$가 주어졌을 때, 그 데이터가 어떤 가설 $H$에 속하는 지로 재해석할 수 있다고 하였습니다. 이것이 베이즈 추론의 핵심적인 내용이였죠. 이를 다시 쓰면 아래의 식으로 쓸 수 있습니다.
$$P(H|D) = \frac{P(D|H)P(H)}{P(D)}$$
하지만 $D$가 주어졌을 때 $H$에 속할 확률을 구하기 위해서는 사전 확률(prior)가 필요하다고 하였습니다. 이 경우에는 $P(H)$입니다. 사전 확률은 어떤 가설의 일반적인 통념입니다. 예를 들어서, 가설 $H$가 앞면이 나올 확률이 서로 다른 동전이라고 하면 최초에 A 동전을 선택할 확률, B 동전을 선택할 확률을 의미합니다. 저희는 문제의 편의를 위해서 두 동전을 선택할 확률은 동일하다고 가정한다면 0.5가 될 것입니다. 하지만, 실생활에서는 더 복잡한 사전 확률이 주어지기도 하며 심지어 사전 확률을 모르는 경우도 많기 때문에 사전 확률을 선택하는 것이 이후의 추론에 영향을 준다고 언급을 하였습니다.
그렇다면 $P(D|H)$는 무엇일까요? 이것은 우도(likelihood)였습니다. 어떤 가설 $H$이 맞다고 가정했을 때 데이터 $D$가 나올 확률입니다. 예를 들어 설명해보면 공평한 동전으로 던졌다고 가정했을 때 앞면이 나올 확률은 0.5일 것입니다. 하지만, 동전이 살짝 휘어서 앞면이 나올 확률이 0.7일 경우도 있을 것입니다.
이것을 통해 알 수 있는 사실은 베이즈 추론을 위해서는 사전 확률과 우도가 필요하다는 것입니다. 만약, 둘 다 알고 있다면 저희는 베이즈 이론을 통해서 정확하게 사후 확률(posterior) $P(H|D)$를 계산할 수 있습니다.
2. 베이즈 추론 VS 빈도주의 추론
이번 절에서는 각 추론의 특징을 중심으로 키워드를 나열해보도록 하겠습니다.
2.1 베이즈 추론
- 가설과 데이터에 대한 확률을 모두 사용한다.
- 관찰된 데이터의 우도와 사전 확률에 의존한다.
- 사전 확률은 주어질 수도 있지만 주관적으로 설계될 수도 있다.
- 연속 확률변수의 경우에는 적분이 응용되기 때문에 계산량이 많을 수 있다.
그렇다면 베이즈 추론의 문제점은 무엇일까요?
다들 예상했다 싶이 사전 확률분포에 관한 내용입니다. 사전 확률분포가 주어지면 상관은 없지만 주어지지 않는 경우 주관적인 설계가 이루어집니다. 주관적이라는 것은 사람의 편견이 들어가기 마련입니다. 따라서 공정하지 않은 설계가 될 가능성이 높습니다. 심지어 이러한 사전 확률분포를 선택하는 유일한 방법이 없다는 것입니다. 그래서 이전 포스팅에서 언급했듯이 사전 확률분포를 어떤 것을 선택하느냐에 따라서 동일한 데이터일지라도 다른 사후 확률을 얻을 수 있습니다.
하지만!! 그럼에도 불구하고 현재 머신러닝이나 딥러닝에서 베이즈 추론은 굉장히 잘 쓰이는 통계적 기법 중 하나입니다. 이는 몇 가지 이유가 있습니다. 먼저, 현재에는 수많은 데이터가 존재하기 때문에 이를 기반으로 내재된 사전 확률분포를 추출해낼 수 있다면 사후 확률에 대한 해석을 완벽하게 진행할 수 있습니다. 그리고, "극단적인 데이터"에 대한 개념과 무관합니다. 이는 빈도주의 추론의 문제점이라고 볼 수 있겠죠. 마지막으로 데이터가 주입될 때마다 바로 사용가능하다는 점입니다.
2.2 빈도주의 추론
- 사전 확률, 사후 확률에 대한 내용이 없다.
- 관찰된 데이터와 관찰되지 않은 데이터들에 의한 우도에 의존한다.
- 베이즈 추론에 비해 계산량이 적다.
이제 빈도주의 추론의 문제점에 대해서 알아보겠습니다.
베이즈 추론이 왜 현재 잘 쓰이는 지에 대해서 설명할 때 "더 극단적"인 것에 대한 개념이 없기 때문이라고 했습니다. 빈도주의 추론에서는 이러한 개념을 적용하였으며 이는 주관적일 수 있습니다. 물론 $p$ 값으로 제어는 할 수 있지만 유의 수준 $\alpha$ 값에 따라서 극단적인지 극단적이지 않은지가 결정되버립니다. 그리고, $p$ 값과 유의 수준이 잘못된 해석을 내릴 가능성이 높습니다.
하지만 빈도주의 추론은 실험 및 분석 방법에 대해서 꽤나 신중한 설명을 하기 때문에 신뢰도가 높다는 것입니다. 따라서 이는 실험자의 편견을 제어하는 데 도움이 될 수 있습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[35].신뢰 구간 1 (0) | 2020.08.15 |
---|---|
기초통계학[33].귀무가설의 유의성 검정 6 (0) | 2020.08.05 |
기초통계학[32].귀무가설의 유의성 검정 5 (0) | 2020.07.28 |
기초통계학[31].귀무가설의 유의성 검정 4 (0) | 2020.07.21 |
기초통계학[30].귀무가설의 유의성 검정 3 (0) | 2020.07.17 |