안녕하세요. 오늘은 지난 시간의 기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수(https://everyday-image-processing.tistory.com/16)에 이어서 중심극한정리(Central Limit Theorem;CLT)와 큰 수의 법칙(Law of Large Numbers;LoLN)에 대해서 알아보겠습니다.
드디어 확률 부분의 끝이 보이기 시작합니다. 확률의 경우 앞으로 3개만 더 포스팅하면 끝날 예정이고 그 이후에는 통계를 포스팅하겠습니다. 조금 더 힘을 내도록 합시다!
1. 큰 수의 법칙(Law of Large Number;LoLN)
큰 수의 법칙을 시작하기 전에 중요한 개념부터 정의하겠습니다.
$X_{1}, X_{2}, \dots, X_{n}$들이 동일한 확률 분포를 따르는 서로 독립적인 확률 분포라면 $X_{i}$들을 i.i.d라고 합니다. 이때, 각 $X_{i}$들은 동일한 분포를 따르기 때문에 각각의 평균($\mu$)과 표준편차($\sigma$)는 동일합니다.
이때, $\overline{X}_{n}=\frac{X_{1}+X_{2}+\dots+X_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n} X_{i}$라고 하겠습니다. 즉 $\overline{X}_{n}$은 $n$개의 표본들의 평균입니다. 이때 $\overline{X}_{n}$ 자체로 확률 변수가 될 수 있음에 유의해주세요.
사실 아직 큰 수의 법칙과 중심 극한 정리에 대한 공식적인 이론은 언급하지 않았습니다. 그 전에 간단한 예시를 통해 이해하고 넘어가는 게 좋을 거 같네요.
베르누이 분포를 생각해봅시다. $X_{i}$를 앞면, 뒷면이 나올 확률이 동일한 동전의 서로 독립적인 뒤집기라고 하면 $X_{i} \sim {\sf Bernoulli}(0.5)$입니다. 또한 이전에 증명했듯이 $\mu=0.5$입니다. (이유를 모르시는 분들은 기초통계학[5].이산확률변수의 기댓값(https://everyday-image-processing.tistory.com/10)을 참조해주세요.)
따라서 $\overline{X}_{n}$은 $n$번 던졌을 때 앞면이 나온 비율이라고 볼 수 있고 저희는 $n$이 커질수록 이 비율이 0.5에 가까워 질것이라고 기대할 수 있습니다. 물론 각각의 시행이 확률적이기 때문에 이는 100% 보장은 할 수 없습니다. 따라서 저희는 좀 더 직관적으로 생각해서 $n$이 커짐에 따라서 $\overline{X}_{n}$은 높은 확률(100%는 아닙니다!)로 0.5에 가깝다고 볼 수 있습니다.
이를 matlab 코드의 결과를 이용해서 확인해보겠습니다. 실험 방식은 $\overline{X}_{n}$이 0.5에 충분히 가까워지는 것을 확인하기위해 오차로 0.1을 주겠습니다. 즉, $n$이 충분히 커진다면 $P(\left| \overline{X}_{n} -0.5 \right| \le 0.1)$가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로는 $P(0.4 \le \overline{X}_{n} \le 0.6)$로 쓸수 있습니다.
$n$ | $P(0.4 \le \overline{X}_{n} \le 0.6)$ | result |
10 | >> binocdf(6, 10, 0.5)-binocdf(3, 10, 0.5) | 0.6563 |
100 | >> binocdf(60, 100, 0.5)-binocdf(39, 100, 0.5) | 0.9648 |
1000 | >> binocdf(600, 1000, 0.5)-binocdf(399, 1000, 0.5) | 1.0000 |
결과를 보면 $n$이 커질수록 점점 1.0000에 다가가는 것을 볼 수 있습니다. 그렇다면 더 작은 오차로 0.01로 주고 실험을 진행해보겠습니다. 즉 $n$이 충분히 커진다면 $P(\left| \overline{X}_{n}-0.5 \right| \le 0.01)$가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로 $P(0.49 \le \overline{X}_{n} \le 0.51)$로 쓸 수 있습니다.
$n$ | $P(0.49 \le \overline{X}_{n} \le 0.51)$ | result |
10 | >> binocdf(5, 10, 0.5)-binocdf(4, 10, 0.5) | 0.2461 |
100 | >> binocdf(51, 100, 0.5)-binocdf(48, 100, 0.5) | 0.2356 |
1000 | >> binocdf(510, 1000, 0.5)-binocdf(489, 1000, 0.5) | 0.4933 |
10000 | >> binocdf(5100, 10000, 0.5)-binocdf(4899, 10000, 0.5) | 0.9556 |
100000 | >> binocdf(51000, 100000, 0.5)-binocdf(48999, 100000, 0.5) | 1.0000 |
이번에는 오차를 더 작게 잡아서 $n$이 훨씬 커야 1에 가까워지는 것을 볼 수 있습니다. 하지만 결론은 오차가 어떻든 간에 $n$이 커지면 1에 가까워진다는 점이죠!
드디어 큰 수의 법칙의 정리를 확인해보겠습니다.
큰 수의 법칙(LoLN)
$X_{1}, X_{2}, \dots, X_{n}, \dots $를 각각 평균이 $\mu$이고 분산이 $\sigma$인 i.i.d. 확률 변수라고 하자.
자연수 $n$에 대하여 $\overline{X}_{n}$을 처음 $n$개의 확률 변수의 평균이라고 했을 때 모든 $a \ge 0$에 대해서 $\lim_{n \to \infty} P(\left| \overline{X}_{n} - \mu \right| < a )=1$이다.
2. 중심극한정리(Central Limit Theorem;CLT)
중심극한정리를 본격적으로 확인하기 전에 중요한 개념을 보고 넘어가겠습니다.
표준화(Standardization)
평균이 $\mu$, 분산이 $\sigma^{2}$인 확률 변수 $X$에 대해서 $X$의 표준화를 새로운 확률 변수 $Z=\frac{X - \mu}{\sigma}$로 정의합니다.
이때, 새로운 확률 변수 $Z$의 평균은 0이고 분산은 1입니다.
이제 중심극한정리를 확인해볼 텐데 앞의 설명부분이 조금 기니 참고 따라와주시길 바랍니다.
$X_{1}, X_{2}, \dots, X_{n}, \dots$를 i.i.d이고 평균이 $\mu$, 표준편차가 $\sigma$인 확률변수라고 하자.
그리고 $n$에 대해서 $S_{n}$을 $X_{1}, X_{2}, \dots, X_{n}$의 합, $\overline{X}_{n}$을 $X_{1}, X_{2}, \dots, X_{n}$의 평균이라고 하자. 즉 $S_{n}=X_{1}+X_{2}+\dots+X_{n}=\sum_{i=1}^{n} X_{i}$, $\overline{X}_{n}=\frac{X_{1}+X_{2}+\dots+X_{n}}{n}=\frac{S_{n}}{n}$입니다.
평균(기댓값)과 분산의 성질을 통해 $S_{n}$과 $\overline{X}_{n}$의 평균, 분산, 표준편차를 구할 수 있습니다.
$$E(S_{n})=n\mu, Var(S_{n})=n\sigma^{2}, \sigma_{S_{n}}=\sqrt{n} \sigma$$
$$E(\overline{X}_{n})=\mu, Var(\overline{X}_{n})=\frac{\sigma^{2}}{n}, \sigma_{\overline{X}_{n}}=\frac{\sigma}{\sqrt{n}}$$
이때 $S_{n}$과 $\overline{X}_{n}$은 서로 배수 관계이므로 표준화된 새로운 확률변수를 동일하게 사용할 수 있습니다.
$$Z_{n}=\frac{S_{n}-n\mu}{\sigma \sqrt{n}}=\frac{\overline{X}_{n}-\mu}{\frac{\sigma}{\sqrt{n}}}$$
중심극한정리
충분히 큰 $n$에 대해서 $\overline{X}_{n} \approx N(\mu, \frac{\sigma^{2}}{n})$, $S_{n} \approx N(n\mu, n\sigma^{2})$, $Z_{n} \approx N(0, 1)$이다. 이를 수식적으로 표현하면 $lim_{n \to \infty} F_{Z_{n}}=\Phi(z)$입니다.
최종적으로 표준화된 $S_{n}$과 $\overline{X}_{n}$은 표준 정규 분포에 거의 수렴함을 알 수 있습니다.
2.1. 중심극한정리의 활용
이제 배운 중심극한정리를 활용하여 간단한 예제들을 풀어보겠습니다.
앞면과 뒷면이 나올 확률이 동일한 동전을 100번 던진다고 했을 때 앞면이 55번보다 더 나올 확률을 구해본다고 가정하겠습니다.
$X_{j}$를 $j$번째 동전 뒤집기라고 하겠습니다. 이때 $X_{j}=0$은 뒷면, $X_{j}=1$은 앞면입니다. 앞면이 나오는 개수는 $S=X_{1}+X_{2}+\dots+X_{100}$을 통해 정의할 수 있습니다. 저희는 $E(X_{j})=\frac{1}{2}$, $Var(X_{j})=\frac{1}{4}$임을 알고 있습니다. 또한 $n=100$이기 때문에
$$E(S)=50, Var(S)=25, \sigma_{S}=5$$
입니다. 이제 중심극한정리의해서 표준화된 $S$는 $N(0, 1)$에 근사됩니다. 그리고 원하는 것은 앞면이 55번보다 더 나올 확률이므로 $P(S > 55)$입니다. 이제 표준화와 중심극한정리에 의해서
$$P(S > 55)=P(\frac{S-50}{5} > \frac{55-50}{5}) \approx P(Z > 1)=0.16$$
가 됩니다.
2.2. 중심극한정리의 사용 이유
위의 예시에서는 확률은 이항 분포를 사용하여 정확하여 CLT를 사용하여 대략적인 결과를 알 수 있었습니다. 실제로 각 $X_{i}$가 베르누이 시행이고 $S$가 이항 분포이기 때문에 CLT 없이도 정확하게 계산할 수 있습니다. 하지만 일반적으로 저희는 $S$의 분포에 익숙치않습니다. 따라서 $S$의 확률을 정확하게 계산할 수 없죠. 물론 컴퓨터를 이용해서 계산은 가능하지만 계산량이 엄청나게 클 것입니다. 여기서 CLT의 중요성이 나오게 됩니다. $X_{i}$가 거의 대부분 분포에서 CLT를 적용할 수 있다는 점이죠.
2.3. $n$의 크기?
그렇다면 $n$의 크기를 얼마로 잡아야할까요? 사실 그렇게 큰 값이 아니라도 대부분의 분포에서 $n=100$으로 정하면 거의 정규 분포에 수렴하게 됩니다.
기초통계학[12].밀도 히스토그램과 Chebyshev 부등식(https://everyday-image-processing.tistory.com/19)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
---|---|
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |
기초통계학[8].연속확률변수의 분포 (1) | 2020.03.16 |