지난 포스팅에서 저희는 $p$-값이 종종 잘못 해석되어 값이 작으면 곧바로 귀무가설이 틀리고 대립가설이 맞다고 여겨지지만 이는 논리적 오류에 가깝다는 것을 예시로 확인하였습니다. 예를 들어 “미국인이라면 대체로 의원이 아니다 → 의원이면 미국인이 아니다”라는 잘못된 귀납적 추론과 비슷하죠. 올바른 해석을 위해서는 베이즈 정리를 통해 $p(H_{0} \mid \mathcal{D})$를 계산해야하며 단순히 $p$-값으로 결론을 내리는 것은 위험합니다.
이와 같이 빈도주의 원리에 기반한 추론은 때때로 직관에 반하는 여러 형태의 행동을 보일 수도 있으며 이는 상식적 추론과 모순되기도 합니다. 이러한 문제의 근본적인 원인은 빈도주의적 추론이 우도 원리(likelihood principle)을 위반하기 때문이죠. 우도 원리에 따르면 추론은 관측된 데이터의 가능도에 기반해야하며 아직 관측된 가상의 미래 데이터에 기반해서는 안됩니다. 베이즈 추론은 이러한 우도 원리를 만족하므로 이러한 모순을 가지지 않습니다.
이러한 빈도주의 통계의 근본적인 결함과 베이지안 방법에는 이러한 모순이 없다는 사실을 감안할 때 당연히도 "그냥 다 베이지안을 쓰면 되는 거 아닌가?"라는 질문을 할 수 있습니다. 저명한 빈도주의 통계학자인 브래들리 에프런(Bradley Efron)은 실제로 "Why isn’t everyone a Bayesian?"를 제목으로 논문을 작성했다고 합니다. 논문에는 다음과 같은 서론이 적혀있습니다.
Why isn’t everyone a Bayesian?
이 제목은 최소 두 가지 관점에서 타당한 질문이다. 첫째, 예전에는 모두가 베이지안이었다. 라플라스는 추론 문제에 대한 베이즈의 정식을 전적으로 지지했으며, 대부분의 19세기 과학자들도 이를 따랐다. 여기에는 가우스도 포함되는데, 그의 통계학적 작업은 보통 빈도주의적 용어로 소개된다.
둘째, 더 중요한 점은 베이지안 논증의 설득력이다. 현대 통계학자들은 세비지와 데 피네티의 뒤를 이어, 베이지안 추론을 선호해야 한다는 강력한 이론적 주장을 발전시켜 왔다. 이 과정에서 빈도주의적 관점의 불일치에 대한 불편한 목록이 산출되었다.
그럼에도 불구하고, 모두가 베이지안인 것은 아니다. 현재 시대(1986년)는 통계학이 과학적 보고에 널리 사용된 최초의 세기이며, 실제로 20세기의 통계학은 주로 비(非)베이지안이다. 그러나 린들리(1975)는 21세기에는 변화가 일어날 것이라고 예측했다.
시간이 지나야 린들리가 옳았는지 자세하게 알 수 있을 것 입니다. 그러나 추세는 그런 방향으로 나아가고 있습니다. 예를 들어 일부 학술지에서는 $p$-값과 NHST의 사용에 경고를 보내는 특집호를 출간하기도 하였습니다.
전통적으로 베이지안 방법의 사용에는 계산상의 장벽이 있었지만 이는 오늘날 더 빠른 컴퓨터와 더 나은 알고리즘 덕분에 큰 문제는 아니게 되었습니다. 보다 근본적인 우려는 베이지안 접근이 모델링 가정만큼만 정확하다는 점 입니다. 그러나 이 비판 역시 빈도주의 방법에도 똑같이 적용됩니다. 왜냐하면 추정량의 표본분포 역시 데이터 생성 메커니즘에 대한 가정을 기반으로 도출하기 때문이죠. 즉, 베이지안 추론이 이론적·실무적으로 더 합리적이지만, 실천에서는 계산 문제와 모델 가정 때문에 빈도주의도 함께 참고해야 합니다. 따라서 원칙적으로는 베이지안, 실제에서는 보정된 현실적 절차를 쓰는 것이 바람직합니다. 전체적으로 정리하면 도널드 루빈(Donald Rubin)의 논문을 인용하면 좋을 거 같습니다.
Bayesianly Justifiable and Relevant Frequency Calculations for the Applied Statistician
응용 통계학자는 원칙적으로는 베이지안이어야 하며, 실제에서는 현실에 맞게 보정되어야 한다. 그들은 자신들의 가정에서 합리적으로 벗어나더라도 대체로 보정된 절차로 이어지는 명세를 사용하려고 시도해야 한다. 또한 관련된 방식으로 관측된 데이터에 의해 반박되는 모형은 피해야 한다 — 가상의 반복을 통한 빈도 계산은 모형의 적합성을 평가하고 보다 적절한 모형을 제안하는 데 도움이 될 수 있다.