안녕하세요. 지난 포스팅의 기초통계학[29].귀무가설의 유의성 검정 2에서는 중요한 NHST를 실제 사례에 적용하기 위한 중요한 개념들을 알아보았습니다. 오늘은 실제로 NHST를 설계하는 방법에 대해서 알아보도록 하겠습니다.
1. NHST 설계하기
NHST를 설계하는 방식은 아래의 과정을 거칩니다.
- 귀무가설 $H_{0}$를 정합니다. 이 과정에서는 수학적인 언어는 아니더라도 대략적인 귀무가설 $H_{0}$와 대립가설 $H_{A}$를 정합니다. 예를 들면, 귀무가설은 "동전은 공평하다.", 대립가설은 "동전은 공평하지 않다."라고 정할 수 있습니다.
- $H_{A}$를 꼬리가 하나인 경우로 생각할 것인지(one-tailed), 꼬리가 양쪽으로 2개인 경우로 생각할 것인지(two-tailed) 결정합니다. 예를 들면, 대립 가설 $H_{A}$를 "동전이 공평하지 않다."라고 하게 되면 $\theta \neq 0.5$인것을 알 수 있습니다. 이것이 의미하는 것은 $\theta > 0.5$, $\theta < 0.5$인 2개의 경우를 동시에 확인한다고 볼 수 있습니다. 이에 반해, 동전에 앞면이 더 많이 나오는 경우에 더 집중하고 싶은 경우 $\theta > 0.5$, 동전이 뒷면이 더 많이 나오는 경우에 집중하고 싶은 경우에는 $\theta < 0.5$만 확인하면 될 것입니다. 이것은 설계하는 사람이 어떤 것을 확인하고자 하느냐에 따라서 달라질 것입니다.
- 검정 통계량 $X$를 결정합니다. 예를 들어서 표본 평균, 표본의 합, 표본의 분산이 될 수 있겠습니다. 이러한 선택들에 따라서 다양한 검정법으로 나뉩니다. 표본 평균으로 정한 경우 $z$ 검정, 표본의 합으로 정한 경우 $t$ 검정, 표본의 분산으로 정한 경우 $\cai^{2}$ 검정이라고 합니다.
- 유의 수준을 정한 뒤 기각 영역을 결정합니다. 이때, 유의 수준은 보통 $\alpha$라고 표기합니다. 네이만-피어슨 패러다임의 특징 중에 하나는 미리 $\alpha$ 값을 정합니다. 일반적으로 $\alpha$는 0.1, 0.05, 0.01 중에 하나로 정하기도 합니다. 여기서 다시 한번 유의 수준의 정의를 떠올리시면 각 $\alpha$ 값이 의미하는 것은 1종 오류가 발생할 확률을 의미하는 것을 알 수 있습니다. 그리고 유의 수준을 정하고 나면 기각 영역은 바로 얻을 수 있습니다.
- 검정력을 결정합니다. 이전 포스팅의 동전 예시를 보면 기각 영역이 정해지게 되면 대립가설의 다양한 값에 의해서 검정력이 정해진다고 하였습니다.
2. 임계치(Critical value)
임계치는 분위수와 비슷한 개념입니다. 다만, 분위수의 경우에는 왼쪽부터 시작하여 특정 확률만큼을 포함하는 확률 변수 값으로 정의하였으나 임계치의 경우에는 왼쪽과 오른쪽 모두 시작하게 됩니다. 예를 들어서 아래의 그림을 보도록 하겠습니다.
그림을 보면 $x_{0.05}$가 있는 것을 알 수 있습니다. 이 값이 임계치를 의미하고, 밑의 0.05가 유의 수준을 의미합니다. 즉, 임계치는 해당 값을 기준으로 기각 영역과 비기각 영역을 나누는 것이라고 보면 될 거 같습니다. 이번에는 왼쪽에서 시작하는 임계치를 찾아보도록 하겠습니다.
위의 그림과 동일하게 얻는 것을 알 수 있습니다.
3. p 값(p-value)
먼저 p 값은 유의 확률이라고 부르기도 합니다. 이는 귀무가설 $H_{0}$가 맞다고 가정했을 때 얻은 결과보다 극단적인 결과가 나올 확률을 의미합니다. 즉, p 값은 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1사이의 수치로 표현한 것이라고 볼 수 있습니다. 이때, 귀무가설과 양립하는 정도가 클수록 1에 가까워집니다.
이때, "더 극단적"이라는 것은 정의에 따라 달라진다는 것에 유의해야합니다. 예를 들어 정규 분포의 경우에는 귀무가설을 가정했을 때 확률변수 $X$와 표본 $x$에 대해서 아래와 같이 양쪽 꼬리 유의 확률로 정의할 수 있습니다.
또는 아래의 사진과 같은 오른쪽 꼬리 유의 확률로도 정의할 수 있습니다.
물론 왼쪽 꼬리 확률로도 정의할 수 있죠. 정규 분포에서는 평균에서 멀어질 수록 존재하는 데이터의 비율이 점점 줄어든다는 특징을 활용한 것이라고 볼 수 있습니다. 즉, 평균에서 멀다는 것은 극단적인 값이라는 것이죠. 예를 들어, A 라는 나라의 평균키가 170cm인데 어떤 사람이 200cm라면 이 사람은 평균과는 먼 극단적인 표본이라고 볼 수 있는 것과 동일한 이치입니다.
이러한 p 값은 선택된 유의 수준 $\alpha$보다 작다면 귀무가설 $H_{0}$를 기각하고 대립가설 $H_{A}$를 수용합니다. p 값이 유의 수준 $\alpha$보다 크거나 같다면 귀무가설 $H_{0}$를 기각하지 못합니다. 아래의 z 검정 예시를 통해서 확인해보도록 하겠습니다.
A 도시의 IQ는 정규분포 $N(100, 15^{2})$를 따른다고 가정하겠습니다. 저희는 이제 A 도시안에 있는 B 중학교 학생들의 IQ 역시 정규분포 $N(100, 15^{2})$을 따르는 것을 보이려고 합니다. 이를 위해서는 먼저 귀무가설과 대립가설을 정의해야합니다.
- $H_{0}$ : B 중학교 평균 IQ는 $N(100, 15^{2})$의 분포를 따른다.
- $H_{A}$ : B 중학교 평균 IQ는 100보다 크다.
이때 $H_{A}$가 오른쪽 꼬리로 정의된 것을 확인하시길 바랍니다. 원한다면, 양쪽이나 왼쪽으로 해도 상관없습니다. 9명의 B 중학교 학생들의 IQ 평균 $\bar{x} = 112$라고 가정하겠습니다. 그렇다면 저희는 유의 수준 $\alpha = 0.5$에서 $H_{0}$를 기각할 수 있을까요? 여기서 표본의 평균을 검정 통계량으로 사용하였습니다. 따라서 이는 z 검정이라고 부르게 됩니다.
기각의 유무를 결정하기 위해서는 먼저 p 값을 계산해야합니다. 하지만 그러기 위해서는 데이터를 표준화하는 작업을 거쳐야합니다. 귀무가설 $H_{0}$을 수식적으로 표현하면 $\bar{x} \sim {N(100, 15^{2})}$입니다. 그러므로 이를 표준화하여 $z$로 표현하면 아래와 같습니다.
$$z = \frac{\bar{x} - 100}{\frac{15}{\sqrt{9}}} = \frac{36}{15} = 2.4 \sim {N(0, 1)}$$
그러므로 귀무분포는 $z$에 대한 표준 정규분포라고 말할 수 있습니다. 이때, 사용되는 $z$를 $z$ 통계량이라고 말합니다. 즉, 표준화된 표본의 평균이라고 볼 수 있겠죠.
이제 p 값을 구할 수 있습니다. p 값은 해당 데이터가 현재 귀무가설이 맞다고 가정했을 때 얼마나 극단적인지를 나타내는 0 ~ 1사이의 확률이라고 하였습니다. 이를 정규분포에서 생각하면 평균을 중심으로 했을 때 현재 표본이 얼마나 치우쳤는 지를 나타내는 정도입니다. 또한, 처음에 대립가설을 정의할 때 오른쪽 꼬리로 정의되었으므로 p 값은 $P(Z \ge 2.4)$와 동일합니다. 따라서 이를 계산하면 p 값은 0.0081975입니다.(간단하게 $p$라고 하겠습니다.)
여기서 유의 수준 $alpha = 0.5$와 비교합니다. $alpha \ge p$이므로 귀무가설을 기각합니다. 따라서 결론은 B 중학교의 평균 IQ가 A 도시와 동일하다는 귀무가설은 기각되고 B 중학교의 평균 IQ가 A 도시보다 더 크다는 대립가설을 지지하게 됩니다. 만약 $\alpha < p$라면 귀무가설을 기각하지 않을 것입니다.
이때 주의할 점은 표본 평균 $\bar{x}$는 무작위로 뽑은 9명의 B 중학교 학생에 대한 평균입니다. 따라서, 다시 실험을 하게 되면 달라질 수 있을 것입니다.
위의 결론을 그림으로 그리면 아래와 같습니다.
저희가 항상 생각해야할 것은 유의수준을 기준으로 기각 영역과 비기각 영역을 결정한다고 하였습니다. 위의 예시에서는 표본평균이 기각 영역에 있기 때문에 귀무가설이 기각당하였습니다. 만약 표본 평균이 1.5정도 된다면 유의수준보다 더 큰 p 값을 가지므로 귀무가설은 기각당하지 않습니다.
정리하면 아래와 같습니다.
1. $z = 2.64$는 기각 영역과 동일합니다
2. $z = 2.64$는 $z_{0.05}$의 오른쪽 영역과 동일합니다.
3. 오른쪽 영역은 $z$가 0.05보다 작을 확률과 동일합니다.
4. 그런데 $p$ 값이 0.05보다 작으므로 기각 영역에 포함됩니다.
5. 따라서 귀무가설은 기각됩니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[32].귀무가설의 유의성 검정 5 (0) | 2020.07.28 |
---|---|
기초통계학[31].귀무가설의 유의성 검정 4 (0) | 2020.07.21 |
기초통계학[29].귀무가설의 유의성 검정 2 (0) | 2020.07.16 |
기초통계학[28].귀무가설의 유의성 검정 1 (0) | 2020.07.14 |
기초통계학[27].빈도론자 관점의 통계학 (0) | 2020.07.11 |