안녕하세요. 오늘은 지난 시간의 기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수(https://everyday-image-processing.tistory.com/16)에 이어서 중심극한정리(Central Limit Theorem;CLT)와 큰 수의 법칙(Law of Large Numbers;LoLN)에 대해서 알아보겠습니다.
드디어 확률 부분의 끝이 보이기 시작합니다. 확률의 경우 앞으로 3개만 더 포스팅하면 끝날 예정이고 그 이후에는 통계를 포스팅하겠습니다. 조금 더 힘을 내도록 합시다!
1. 큰 수의 법칙(Law of Large Number;LoLN)
큰 수의 법칙을 시작하기 전에 중요한 개념부터 정의하겠습니다.
$X_{1}, X_{2}, \dots, X_{n}$들이 동일한 확률 분포를 따르는 서로 독립적인 확률 분포라면 $X_{i}$들을 i.i.d라고 합니다. 이때, 각 $X_{i}$들은 동일한 분포를 따르기 때문에 각각의 평균($\mu$)과 표준편차($\sigma$)는 동일합니다.
이때, $\overline{X}_{n}=\frac{X_{1}+X_{2}+\dots+X_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n} X_{i}$라고 하겠습니다. 즉 $\overline{X}_{n}$은 $n$개의 표본들의 평균입니다. 이때 $\overline{X}_{n}$ 자체로 확률 변수가 될 수 있음에 유의해주세요.
사실 아직 큰 수의 법칙과 중심 극한 정리에 대한 공식적인 이론은 언급하지 않았습니다. 그 전에 간단한 예시를 통해 이해하고 넘어가는 게 좋을 거 같네요.
베르누이 분포를 생각해봅시다. $X_{i}$를 앞면, 뒷면이 나올 확률이 동일한 동전의 서로 독립적인 뒤집기라고 하면 $X_{i} \sim {\sf Bernoulli}(0.5)$입니다. 또한 이전에 증명했듯이 $\mu=0.5$입니다. (이유를 모르시는 분들은 기초통계학[5].이산확률변수의 기댓값(https://everyday-image-processing.tistory.com/10)을 참조해주세요.)
따라서 $\overline{X}_{n}$은 $n$번 던졌을 때 앞면이 나온 비율이라고 볼 수 있고 저희는 $n$이 커질수록 이 비율이 0.5에 가까워 질것이라고 기대할 수 있습니다. 물론 각각의 시행이 확률적이기 때문에 이는 100% 보장은 할 수 없습니다. 따라서 저희는 좀 더 직관적으로 생각해서 $n$이 커짐에 따라서 $\overline{X}_{n}$은 높은 확률(100%는 아닙니다!)로 0.5에 가깝다고 볼 수 있습니다.
이를 matlab 코드의 결과를 이용해서 확인해보겠습니다. 실험 방식은 $\overline{X}_{n}$이 0.5에 충분히 가까워지는 것을 확인하기위해 오차로 0.1을 주겠습니다. 즉, $n$이 충분히 커진다면 $P(\left| \overline{X}_{n} -0.5 \right| \le 0.1)$가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로는 $P(0.4 \le \overline{X}_{n} \le 0.6)$로 쓸수 있습니다.
$n$ | $P(0.4 \le \overline{X}_{n} \le 0.6)$ | result |
10 | >> binocdf(6, 10, 0.5)-binocdf(3, 10, 0.5) | 0.6563 |
100 | >> binocdf(60, 100, 0.5)-binocdf(39, 100, 0.5) | 0.9648 |
1000 | >> binocdf(600, 1000, 0.5)-binocdf(399, 1000, 0.5) | 1.0000 |
결과를 보면 $n$이 커질수록 점점 1.0000에 다가가는 것을 볼 수 있습니다. 그렇다면 더 작은 오차로 0.01로 주고 실험을 진행해보겠습니다. 즉 $n$이 충분히 커진다면 $P(\left| \overline{X}_{n}-0.5 \right| \le 0.01)$가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로 $P(0.49 \le \overline{X}_{n} \le 0.51)$로 쓸 수 있습니다.
$n$ | $P(0.49 \le \overline{X}_{n} \le 0.51)$ | result |
10 | >> binocdf(5, 10, 0.5)-binocdf(4, 10, 0.5) | 0.2461 |
100 | >> binocdf(51, 100, 0.5)-binocdf(48, 100, 0.5) | 0.2356 |
1000 | >> binocdf(510, 1000, 0.5)-binocdf(489, 1000, 0.5) | 0.4933 |
10000 | >> binocdf(5100, 10000, 0.5)-binocdf(4899, 10000, 0.5) | 0.9556 |
100000 | >> binocdf(51000, 100000, 0.5)-binocdf(48999, 100000, 0.5) | 1.0000 |
이번에는 오차를 더 작게 잡아서 $n$이 훨씬 커야 1에 가까워지는 것을 볼 수 있습니다. 하지만 결론은 오차가 어떻든 간에 $n$이 커지면 1에 가까워진다는 점이죠!
드디어 큰 수의 법칙의 정리를 확인해보겠습니다.
큰 수의 법칙(LoLN)
$X_{1}, X_{2}, \dots, X_{n}, \dots $를 각각 평균이 $\mu$이고 분산이 $\sigma$인 i.i.d. 확률 변수라고 하자.
자연수 $n$에 대하여 $\overline{X}_{n}$을 처음 $n$개의 확률 변수의 평균이라고 했을 때 모든 $a \ge 0$에 대해서 $\lim_{n \to \infty} P(\left| \overline{X}_{n} - \mu \right| < a )=1$이다.
2. 중심극한정리(Central Limit Theorem;CLT)
중심극한정리를 본격적으로 확인하기 전에 중요한 개념을 보고 넘어가겠습니다.
표준화(Standardization)
평균이 $\mu$, 분산이 $\sigma^{2}$인 확률 변수 $X$에 대해서 $X$의 표준화를 새로운 확률 변수 $Z=\frac{X - \mu}{\sigma}$로 정의합니다.
이때, 새로운 확률 변수 $Z$의 평균은 0이고 분산은 1입니다.
이제 중심극한정리를 확인해볼 텐데 앞의 설명부분이 조금 기니 참고 따라와주시길 바랍니다.
$X_{1}, X_{2}, \dots, X_{n}, \dots$를 i.i.d이고 평균이 $\mu$, 표준편차가 $\sigma$인 확률변수라고 하자.
그리고 $n$에 대해서 $S_{n}$을 $X_{1}, X_{2}, \dots, X_{n}$의 합, $\overline{X}_{n}$을 $X_{1}, X_{2}, \dots, X_{n}$의 평균이라고 하자. 즉 $S_{n}=X_{1}+X_{2}+\dots+X_{n}=\sum_{i=1}^{n} X_{i}$, $\overline{X}_{n}=\frac{X_{1}+X_{2}+\dots+X_{n}}{n}=\frac{S_{n}}{n}$입니다.
평균(기댓값)과 분산의 성질을 통해 $S_{n}$과 $\overline{X}_{n}$의 평균, 분산, 표준편차를 구할 수 있습니다.
$$E(S_{n})=n\mu, Var(S_{n})=n\sigma^{2}, \sigma_{S_{n}}=\sqrt{n} \sigma$$
$$E(\overline{X}_{n})=\mu, Var(\overline{X}_{n})=\frac{\sigma^{2}}{n}, \sigma_{\overline{X}_{n}}=\frac{\sigma}{\sqrt{n}}$$
이때 $S_{n}$과 $\overline{X}_{n}$은 서로 배수 관계이므로 표준화된 새로운 확률변수를 동일하게 사용할 수 있습니다.
$$Z_{n}=\frac{S_{n}-n\mu}{\sigma \sqrt{n}}=\frac{\overline{X}_{n}-\mu}{\frac{\sigma}{\sqrt{n}}}$$
중심극한정리
충분히 큰 $n$에 대해서 $\overline{X}_{n} \approx N(\mu, \frac{\sigma^{2}}{n})$, $S_{n} \approx N(n\mu, n\sigma^{2})$, $Z_{n} \approx N(0, 1)$이다. 이를 수식적으로 표현하면 $lim_{n \to \infty} F_{Z_{n}}=\Phi(z)$입니다.
최종적으로 표준화된 $S_{n}$과 $\overline{X}_{n}$은 표준 정규 분포에 거의 수렴함을 알 수 있습니다.
2.1. 중심극한정리의 활용
이제 배운 중심극한정리를 활용하여 간단한 예제들을 풀어보겠습니다.
앞면과 뒷면이 나올 확률이 동일한 동전을 100번 던진다고 했을 때 앞면이 55번보다 더 나올 확률을 구해본다고 가정하겠습니다.
$X_{j}$를 $j$번째 동전 뒤집기라고 하겠습니다. 이때 $X_{j}=0$은 뒷면, $X_{j}=1$은 앞면입니다. 앞면이 나오는 개수는 $S=X_{1}+X_{2}+\dots+X_{100}$을 통해 정의할 수 있습니다. 저희는 $E(X_{j})=\frac{1}{2}$, $Var(X_{j})=\frac{1}{4}$임을 알고 있습니다. 또한 $n=100$이기 때문에
$$E(S)=50, Var(S)=25, \sigma_{S}=5$$
입니다. 이제 중심극한정리의해서 표준화된 $S$는 $N(0, 1)$에 근사됩니다. 그리고 원하는 것은 앞면이 55번보다 더 나올 확률이므로 $P(S > 55)$입니다. 이제 표준화와 중심극한정리에 의해서
$$P(S > 55)=P(\frac{S-50}{5} > \frac{55-50}{5}) \approx P(Z > 1)=0.16$$
가 됩니다.
2.2. 중심극한정리의 사용 이유
위의 예시에서는 확률은 이항 분포를 사용하여 정확하여 CLT를 사용하여 대략적인 결과를 알 수 있었습니다. 실제로 각 $X_{i}$가 베르누이 시행이고 $S$가 이항 분포이기 때문에 CLT 없이도 정확하게 계산할 수 있습니다. 하지만 일반적으로 저희는 $S$의 분포에 익숙치않습니다. 따라서 $S$의 확률을 정확하게 계산할 수 없죠. 물론 컴퓨터를 이용해서 계산은 가능하지만 계산량이 엄청나게 클 것입니다. 여기서 CLT의 중요성이 나오게 됩니다. $X_{i}$가 거의 대부분 분포에서 CLT를 적용할 수 있다는 점이죠.
2.3. $n$의 크기?
그렇다면 $n$의 크기를 얼마로 잡아야할까요? 사실 그렇게 큰 값이 아니라도 대부분의 분포에서 $n=100$으로 정하면 거의 정규 분포에 수렴하게 됩니다.
기초통계학[12].밀도 히스토그램과 Chebyshev 부등식(https://everyday-image-processing.tistory.com/19)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
---|---|
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |
기초통계학[8].연속확률변수의 분포 (1) | 2020.03.16 |
안녕하세요. 오늘은 지난 시간의 기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수(https://everyday-image-processing.tistory.com/16)에 이어서 중심극한정리(Central Limit Theorem;CLT)와 큰 수의 법칙(Law of Large Numbers;LoLN)에 대해서 알아보겠습니다.
드디어 확률 부분의 끝이 보이기 시작합니다. 확률의 경우 앞으로 3개만 더 포스팅하면 끝날 예정이고 그 이후에는 통계를 포스팅하겠습니다. 조금 더 힘을 내도록 합시다!
1. 큰 수의 법칙(Law of Large Number;LoLN)
큰 수의 법칙을 시작하기 전에 중요한 개념부터 정의하겠습니다.
X1,X2,…,Xn들이 동일한 확률 분포를 따르는 서로 독립적인 확률 분포라면 Xi들을 i.i.d라고 합니다. 이때, 각 Xi들은 동일한 분포를 따르기 때문에 각각의 평균(μ)과 표준편차(σ)는 동일합니다.
이때, ¯Xn=X1+X2+⋯+Xnn=1n∑ni=1Xi라고 하겠습니다. 즉 ¯Xn은 n개의 표본들의 평균입니다. 이때 ¯Xn 자체로 확률 변수가 될 수 있음에 유의해주세요.
사실 아직 큰 수의 법칙과 중심 극한 정리에 대한 공식적인 이론은 언급하지 않았습니다. 그 전에 간단한 예시를 통해 이해하고 넘어가는 게 좋을 거 같네요.
베르누이 분포를 생각해봅시다. Xi를 앞면, 뒷면이 나올 확률이 동일한 동전의 서로 독립적인 뒤집기라고 하면 Xi∼Bernoulli(0.5)입니다. 또한 이전에 증명했듯이 μ=0.5입니다. (이유를 모르시는 분들은 기초통계학[5].이산확률변수의 기댓값(https://everyday-image-processing.tistory.com/10)을 참조해주세요.)
따라서 ¯Xn은 n번 던졌을 때 앞면이 나온 비율이라고 볼 수 있고 저희는 n이 커질수록 이 비율이 0.5에 가까워 질것이라고 기대할 수 있습니다. 물론 각각의 시행이 확률적이기 때문에 이는 100% 보장은 할 수 없습니다. 따라서 저희는 좀 더 직관적으로 생각해서 n이 커짐에 따라서 ¯Xn은 높은 확률(100%는 아닙니다!)로 0.5에 가깝다고 볼 수 있습니다.
이를 matlab 코드의 결과를 이용해서 확인해보겠습니다. 실험 방식은 ¯Xn이 0.5에 충분히 가까워지는 것을 확인하기위해 오차로 0.1을 주겠습니다. 즉, n이 충분히 커진다면 P(|¯Xn−0.5|≤0.1)가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로는 P(0.4≤¯Xn≤0.6)로 쓸수 있습니다.
n | P(0.4≤¯Xn≤0.6) | result |
10 | >> binocdf(6, 10, 0.5)-binocdf(3, 10, 0.5) | 0.6563 |
100 | >> binocdf(60, 100, 0.5)-binocdf(39, 100, 0.5) | 0.9648 |
1000 | >> binocdf(600, 1000, 0.5)-binocdf(399, 1000, 0.5) | 1.0000 |
결과를 보면 n이 커질수록 점점 1.0000에 다가가는 것을 볼 수 있습니다. 그렇다면 더 작은 오차로 0.01로 주고 실험을 진행해보겠습니다. 즉 n이 충분히 커진다면 P(|¯Xn−0.5|≤0.01)가 1에 가까워짐을 증명하는 것입니다. 동일한 식으로 P(0.49≤¯Xn≤0.51)로 쓸 수 있습니다.
n | P(0.49≤¯Xn≤0.51) | result |
10 | >> binocdf(5, 10, 0.5)-binocdf(4, 10, 0.5) | 0.2461 |
100 | >> binocdf(51, 100, 0.5)-binocdf(48, 100, 0.5) | 0.2356 |
1000 | >> binocdf(510, 1000, 0.5)-binocdf(489, 1000, 0.5) | 0.4933 |
10000 | >> binocdf(5100, 10000, 0.5)-binocdf(4899, 10000, 0.5) | 0.9556 |
100000 | >> binocdf(51000, 100000, 0.5)-binocdf(48999, 100000, 0.5) | 1.0000 |
이번에는 오차를 더 작게 잡아서 n이 훨씬 커야 1에 가까워지는 것을 볼 수 있습니다. 하지만 결론은 오차가 어떻든 간에 n이 커지면 1에 가까워진다는 점이죠!
드디어 큰 수의 법칙의 정리를 확인해보겠습니다.
큰 수의 법칙(LoLN)
X1,X2,…,Xn,…를 각각 평균이 μ이고 분산이 σ인 i.i.d. 확률 변수라고 하자.
자연수 n에 대하여 ¯Xn을 처음 n개의 확률 변수의 평균이라고 했을 때 모든 a≥0에 대해서 limn→∞P(|¯Xn−μ|<a)=1이다.
2. 중심극한정리(Central Limit Theorem;CLT)
중심극한정리를 본격적으로 확인하기 전에 중요한 개념을 보고 넘어가겠습니다.
표준화(Standardization)
평균이 μ, 분산이 σ2인 확률 변수 X에 대해서 X의 표준화를 새로운 확률 변수 Z=X−μσ로 정의합니다.
이때, 새로운 확률 변수 Z의 평균은 0이고 분산은 1입니다.
이제 중심극한정리를 확인해볼 텐데 앞의 설명부분이 조금 기니 참고 따라와주시길 바랍니다.
X1,X2,…,Xn,…를 i.i.d이고 평균이 μ, 표준편차가 σ인 확률변수라고 하자.
그리고 n에 대해서 Sn을 X1,X2,…,Xn의 합, ¯Xn을 X1,X2,…,Xn의 평균이라고 하자. 즉 Sn=X1+X2+⋯+Xn=∑ni=1Xi, ¯Xn=X1+X2+⋯+Xnn=Snn입니다.
평균(기댓값)과 분산의 성질을 통해 Sn과 ¯Xn의 평균, 분산, 표준편차를 구할 수 있습니다.
E(Sn)=nμ,Var(Sn)=nσ2,σSn=√nσ
E(¯Xn)=μ,Var(¯Xn)=σ2n,σ¯Xn=σ√n
이때 Sn과 ¯Xn은 서로 배수 관계이므로 표준화된 새로운 확률변수를 동일하게 사용할 수 있습니다.
Zn=Sn−nμσ√n=¯Xn−μσ√n
중심극한정리
충분히 큰 n에 대해서 ¯Xn≈N(μ,σ2n), Sn≈N(nμ,nσ2), Zn≈N(0,1)이다. 이를 수식적으로 표현하면 limn→∞FZn=Φ(z)입니다.
최종적으로 표준화된 Sn과 ¯Xn은 표준 정규 분포에 거의 수렴함을 알 수 있습니다.
2.1. 중심극한정리의 활용
이제 배운 중심극한정리를 활용하여 간단한 예제들을 풀어보겠습니다.
앞면과 뒷면이 나올 확률이 동일한 동전을 100번 던진다고 했을 때 앞면이 55번보다 더 나올 확률을 구해본다고 가정하겠습니다.
Xj를 j번째 동전 뒤집기라고 하겠습니다. 이때 Xj=0은 뒷면, Xj=1은 앞면입니다. 앞면이 나오는 개수는 S=X1+X2+⋯+X100을 통해 정의할 수 있습니다. 저희는 E(Xj)=12, Var(Xj)=14임을 알고 있습니다. 또한 n=100이기 때문에
E(S)=50,Var(S)=25,σS=5
입니다. 이제 중심극한정리의해서 표준화된 S는 N(0,1)에 근사됩니다. 그리고 원하는 것은 앞면이 55번보다 더 나올 확률이므로 P(S>55)입니다. 이제 표준화와 중심극한정리에 의해서
P(S>55)=P(S−505>55−505)≈P(Z>1)=0.16
가 됩니다.
2.2. 중심극한정리의 사용 이유
위의 예시에서는 확률은 이항 분포를 사용하여 정확하여 CLT를 사용하여 대략적인 결과를 알 수 있었습니다. 실제로 각 Xi가 베르누이 시행이고 S가 이항 분포이기 때문에 CLT 없이도 정확하게 계산할 수 있습니다. 하지만 일반적으로 저희는 S의 분포에 익숙치않습니다. 따라서 S의 확률을 정확하게 계산할 수 없죠. 물론 컴퓨터를 이용해서 계산은 가능하지만 계산량이 엄청나게 클 것입니다. 여기서 CLT의 중요성이 나오게 됩니다. Xi가 거의 대부분 분포에서 CLT를 적용할 수 있다는 점이죠.
2.3. n의 크기?
그렇다면 n의 크기를 얼마로 잡아야할까요? 사실 그렇게 큰 값이 아니라도 대부분의 분포에서 n=100으로 정하면 거의 정규 분포에 수렴하게 됩니다.
기초통계학[12].밀도 히스토그램과 Chebyshev 부등식(https://everyday-image-processing.tistory.com/19)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
---|---|
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |
기초통계학[8].연속확률변수의 분포 (1) | 2020.03.16 |