안녕하세요. 지난 포스팅에서는 기초통계학[34].베이즈 추론과 빈도론자 추론의 비교를 통해서 간단한 차이점을 복습해보았습니다. 오늘 포스팅에서는 베이즈 추론에서 신용 구간(credential interval)과 함께 언급되는 빈도론자 추론의 신뢰 구간(confidential interval)에 대해서 알아보도록 하겠습니다.
1. 소개(Introduction)
이전에 배웠던 최대 우도 추정법(Maximum Likelihood Estimation;MLE)을 떠올리겠습니다. MLE는 데이터가 주어졌을 때 확률 분포의 파라미터를 추정하는 방법이였습니다. 이때, 평균, 분산과 같은 한 개의 실수값에 대한 추정법이기 때문에 MLE는 점 추정(point estimation)에 속합니다. 하지만, 점 추정은 그 추정값에 대한 정확도를 제공해주지 않습니다. 예를 들어서 MLE를 통해서 평균이 특정값을 추정했을 때, 그 값이 정말 어느정도의 신뢰도를 가지는 지를 모릅니다. 이와 이유로 나온 방법이 추정값을 중심으로 하는 구간을 정의하는 데 이를 신뢰 구간(confidential interval)이라고 합니다.
신뢰 구간을 정의할 때 중요한 값은 신뢰도(confidential level)입니다. 신뢰도는 이전에 배웠던 NHST의 유의 수준(significance level)을 통해서 정의됩니다. 예를 들어서 유의 수준 $\alpha=0.05$라고 할 때 신뢰도는 $0.95=1 - \alpha$입니다. 이는 신뢰 구간과 NHST 사이의 깊은 관계가 있음을 시사하고 있습니다.
저희는 신뢰 구간을 실제로 활용해보기 위해서 평균을 위한 $z$ 검정과 $t$ 검정을 활용할 예정입니다. 그리고 새로운 검정 방법인 $\cai^{2}$ 검정에 대해서도 알아보도록 하겠습니다. $\chi^{2}$ 검정은 분산을 위한 검정입니다.
2. 구간 통계량(Interval statistic)
이것은 간단한 예시를 통해서 쉽게 이해할 수 있습니다. 예를 들어서 $x_{1}, x_{2}, \dots, x_{n}$이 가우시안 분포 $N(\mu, \sigma^{2})$를 따른다고 가정하겠습니다. 이때, 표본 평균 $\bar{x}$는 통계량입니다. 하지만, $\bar{x}-\mu$는 통계량이 아닙니다. 왜냐하면 $\mu$는 알려지지 않은 파라미터이기 때문에 통계량 자체를 계산할 수 없기 때문입니다. 만약, $\mu_{0}$가 주어졌다면 $\bar{x}-\mu_{0}$는 통계량입니다. 왜냐하면 값을 계산할 수 있기 때문이죠. 이와 같이 만약 값을 계산할 수 있다면 통계량, 계산할 수 없다면 통계량이 아니라고 분류할 수 있습니다.
방금 예시까지는 점 통계량(point statistic)에 대한 내용이였습니다. 그렇다면 구간 통계량에 대해서 알아보죠. 예시와 동일한 가정 하에 구간 [$\bar{x}$-2.2, $\bar{x}$+2.2]는 통계량입니다. 만약, $\sigma$가 알고 있는 파라미터라면 [$\bar{x}$-$\frac{2\sigma}{\sqrt{n}}$, $\bar{x}$+$\frac{2\sigma}{\sqrt{n}}$]는 통계량입니다. 그와 반대로 $\sigma$를 알지 못한다면 통계량이 아니겠죠. 또한 표본 분산인 $s^{2}$은 알 수 있습니다. 왜냐하면 데이터는 주어졌다고 가정하기 때문이죠. 그렇기 때문에 표본 분산을 이용한 구간 [$\bar{x}$-$\frac{2s}{\sqrt{n}}$, $\bar{x}$+$\frac{2s}{\sqrt{n}}$]는 통계량입니다.
이때, 빈도론자 통계와 베이즈 통계 사이의 중요한 차이점을 먼저 이해하고 있어야합니다. 베이즈 통계에서는 사전 확률분포(prior)라는 개념이 사용되어 가설에 대한 확률을 미리 알 수 있었습니다. 하지만, 빈도론자 통계에서는 이 개념을 완전히 배제합니다. 따라서 신뢰 수준이 신뢰 구간 안의 알지 못하는 파라미터(unknown parameter)에 대한 확률을 의미하지 않습니다.
3. 평균에 대한 $z$ 신뢰 구간
정의 1. 평균에 대한 $z$ 신뢰 구간
$x_{1}, x_{2}, \dots, x_{n}$이 가우시안 분포 $N(\mu, \sigma^{2})$를 따른다고 가정하겠습니다. 여기서 $\mu$는 알지 못하는 파라미터, $\sigma^{2}$는 알고 있는 파라미터입니다.
평균 $\mu$에 대한 $1 - \alpha$ 신뢰 구간은 [$\bar{x}$-$\frac{z_{\alpha/2} \cdot \sigma}{\sqrt{n}}$, $\bar{x}$+$\frac{z_{\alpha/2} \cdot \sigma}{\sqrt{n}}$]로 정의됩니다.
$z_{\alpha/2}$는 우측 임계치 $P(Z > z_{\alpha/2})=z_{\alpha/2}$입니다.
예를 들어서 유의 수준 $\alpha=0.5$로 주어졌다고 가정하겠습니다. 그러면, 아래의 표준 가우시안 분포표를 참고하여 $z_{\alpha/2}=1.96$임을 구할 수 있습니다.
따라서, 신뢰도 95%에 대한 신뢰 구간은 [$\bar{x}$-$\frac{1.96 \cdot \sigma}{\sqrt{n}}$, $\bar{x}$+$\frac{1.96 \cdot \sigma}{\sqrt{n}}$]입니다.
3.1 기각 영역과 비기각 영역
이제 위에서 정의한 $z$ 신뢰 구간을 이용해서 기각 영역을 정의하도록 하겠습니다. 간단한 예제부터 보도록 하겠습니다.
예제1. 데이터의 개수 $n = 12$이고 각 데이터가 알지 못하는 파라미터 $\mu$를 가진 가우시안 분포 $N(\mu, 25)$를 따른다고 가정하겠습니다. 그리고 귀무 가설 $H_{0}$를 $\mu = 2.71$, 유의 수준 $\alpha = 0.05$라고 하겠습니다.
귀무 가설이 맞다고 가정했을 때 각 데이터 $x_{i} \sim {N(2.71, 25)}$임을 알 수가 있습니다. 그리고 표본 데이터와 전체 데이터의 관계에 의해서 저희는 $\bar{x} \sim {N(2.71, \frac{25}{12})}$로 유도할 수 있습니다. 또한 상단의 표준 정규 분포표를 보면 기각 영역에 위치하는 경우는 1.96보다 크거나 작을 때입니다.
그러므로 비기각 영역은 [2.71 - $\frac{1.96 \cdot 5}{\sqrt{12}}$, 2.71 + $\frac{1.96 \cdot 5}{\sqrt{12}}$] = [-0.12, 5.54]입니다. 여기서 $x$가 [$\mu - a$,$\mu + a$]에 속하는 것과 $\mu$가 [$x - a$, $x + a$]에 속하는 것은 동치라는 성질을 사용하였습니다. 이 성질을 피벗팅(pivoting)이라고 합니다.
기각 영역은 비기각 영역의 여집합이므로 (-$\infty$, -0.12] $\cup$ [5.54, $\infty$)입니다. 이를 그림으로 그리면 아래와 같습니다.
위 예제를 일반화하면 데이터가 $n$개고 각 데이터가 $N(\mu, \sigma^{2})$을 따른다고 가정하면 비기각 영역은 [$\bar{x}$-$\frac{z_{\alpha/2} \cdot \sigma}{\sqrt{n}}$, $\bar{x}$+$\frac{z_{\alpha/2} \cdot \sigma}{\sqrt{n}}$]입니다. 또한 기각 영역은 비기각 영역의 여집합이 되겠죠. 이를 그림으로 그리면 아래와 같습니다.
여기서 얻을 수 있는 것은 비기각 영역이 신뢰 구간과 유사하는 것입니다.
3.2 비기각 영역 $\rightarrow$ 신뢰 구간으로의 확장
바로 이전의 예제의 피벗팅 성질을 이용해서 재밌는 결과를 얻을 수 있습니다. $\bar{x}$가 [2.71 - $\frac{1.96 \cdot 5}{\sqrt{12}}$, 2.71 + $\frac{1.96 \cdot 5}{\sqrt{12}}$] 구간에 있다면 기각하지 않는 것입니다. 왜냐하면 유의 수준에 따른 비기각 영역에 해당하기 때문이죠. 이를 피벗팅 성질을 이용하면 2.71이 [$\bar{x}$ - $\frac{1.96 \cdot 5}{\sqrt{12}}$, $\bar{x}$ + $\frac{1.96 \cdot 5}{\sqrt{12}}$]에 속하면 기각하지 않는 것입니다. 이때, 뽑힌 데이터에 따라서 생성되는 구간이 달라질 것입니다.
그런데 식을 다시 한번 유심히 보면 저희가 처음에 정의한 신뢰 구간과 완벽하게 일치한는 것을 볼 수 있습니다. 이 성질을 정리하면 아래와 같습니다.
- 피벗팅 성질을 이용해서 얻은 구간은 오직 $\bar{x}$에만 의존된다.
- 유의 수준 $\alpha$라는 것은 귀무 가설이 맞다고 가정했을 때, 즉 $\mu = \mu_{0}$이라고 가정했을 때, 임의의 데이터가 $\alpha \times 100$%의 확률로 1종 오류를 범한다는 것과 동일하다.
- $\mu = \mu_{0}$이라고 가정했을 때, $\alpha \times 100$%의 확률로 $\mu_{0}$가 해당 구간에 포함되지 않는다. 하지만 $(1 - \alpha) \times 100$%의 확률로 $\mu_{0}$가 해당 구간에 포함된다.
4. 평균에 대한 $t$ 신뢰 구간
$t$ 신뢰 구간은 $z$ 신뢰 구간과 유사합니다. 다만, $z_{\alpha/2}$ 대신 $t_{\alpha/2}$, $\sigma$ 대신 $s$를 씁니다. 여기서 $s^{2}$는 표본의 분산입니다. 따라서 [$\bar{x}$-$\frac{t_{\alpha/2} \cdot s}{\sqrt{n}}$, $\bar{x}$+$\frac{t_{\alpha/2} \cdot s}{\sqrt{n}}$]가 됩니다. 이때, $t_{\alpha/2}$는 $P(T > \alpha/2) = \alpha / 2$ 이고 확률 변수 $T$는 자유도 $n - 1$인 스튜던트 $t$ 분포를 따릅니다. 즉, $T \sim {t(n - 1)}$입니다.
5. $\chi^{2}$ 신뢰 구간
마지막으로 $\chi^{2}$ 신뢰구간은 아래의 정의를 따릅니다.
정의 2. 분산에 대한 $\chi^{2}$ 신뢰 구간
$x_{1}, x_{2}, \dots, x_{n}$이 가우시안 분포 $N(\mu, \sigma^{2})$를 따른다고 가정하겠습니다. 여기서 $\mu$, $\sigma^{2}$는 모르는 파라미터입니다.
분산 $\sigma^{2}$에 대한 $1 - \alpha$ 신뢰 구간은 [$\frac{(n - 1)s^{2}}{c_{\alpha/2}}$, $\frac{(n - 1)s^{2}}{c_{1 - \alpha/2}}$]입니다.
이때, $c_{\alpha/2}$는 우측 임계치 $P(X^{2} > c_{\alpha/2}) = \alpha/2$이고 $X \sim {\chi^{2}(n - 1)}$입니다. 여기서 $\chi^{2}$은 카이제곱 분포를 의미합니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[34].베이즈 추론과 빈도주의 추론의 비교 (0) | 2020.08.06 |
---|---|
기초통계학[33].귀무가설의 유의성 검정 6 (0) | 2020.08.05 |
기초통계학[32].귀무가설의 유의성 검정 5 (0) | 2020.07.28 |
기초통계학[31].귀무가설의 유의성 검정 4 (0) | 2020.07.21 |
기초통계학[30].귀무가설의 유의성 검정 3 (0) | 2020.07.17 |