안녕하세요. 오늘은 지난 시간의 기초통계학[11].중심극한정리와 큰 수의 법칙(https://everyday-image-processing.tistory.com/18)에 이어서 밀도 히스토그램과 Chebyshev 부등식에 대해서 알아보겠습니다.
참고로 이번 포스팅은 다음 내용을 이해하는 데에 있어 큰 상관이 있지는 않습니다. 다만, 확률과 수학이 얼마나 밀접한 관련이 있는 지를 설명하는 포스팅이므로 생략하셔도 문제 없습니다.
1. 밀도 히스토그램
이전 시간의 큰 수의 법칙을 통해 알게 된 사실은 샘플의 수가 증가함에 따라서 해당 샘플들의 밀도 히스토그램이 점차 기존의 pdf나 pmf에 수렴한다는 것입니다. 하지만 증명은 하지않았습니다. 이번 절에서는 실제로 pdf, pmf에 수렴하는 지 증명하는 단계입니다.
이전 포스팅처럼 $X$로부터 서로 독립인 $n$개의 샘플 $x_{1}, x_{2}, \dots, x_{n}$들을 선택했다고 가정하겠습니다. 이때, 밀도 히스토그램은 값의 범위를 의미하는 bin을 정의하기 위해서 $[x_{k}, x_{k+1})$로 정하게 됩니다. 여기서 데이터의 밀도 히스토그램을 만들기위해서 $X$의 범위를 $m$개의 bin으로 나누고 각 bin에 따른 데이터의 비율을 계산해야합니다.
$p_{k}$를 $k$번째 bin에서 확률 데이터 포인트의 확률로 정의를 하겠습니다. 그리고 $B_{k, j}$를 베르누이 확률 가변수(indicator Bernoulli random variable)로 정의하겠습니다. $B_{k, j}$는 $j$번째 점이 $k$번째 bin에 포함된다면 1, 포함되지 않는다면 0이 됩니다.
이제 증명을 위한 사전 준비는 끝났습니다. pdf, pmf에 수렴하는 것을 증명하기 위해서는 총 3개의 명제의 증명이 필요하니 천천히 따라오시길 바랍니다.
명제1
$\overline{p}_{k}$를 $k$번째 bin의 데이터의 비율이라고 하자. 데이터의 개수 $n$이 커질수록 $\overline{x}_{k}$이 $\overline{p}_{k}$에 가까워지는 확률은 1이다.
다시 말해서, 어떤 작은 값 $a$를 주더라도 확률 $P(\left| \overline{p}_{k} - p_{k} \right| < a)$은 데이터의 개수 $n$에 의존하며 $n$이 커질수록 이 확률은 1에 수렴한다.
$\overline{B}_{k}$를 $B_{k, j}$의 기댓값이라고 하겠습니다. $B_{k, j}$가 베르누이 분포를 따르고 있기 때문에 $E(B_{k, j})=p_{k}$입니다. 따라서 큰 수의 법칙에 의해서 $P(\left| \overline{B}_{k} - p_{k} \right| < a)$가 $n$이 커질수록 1에 수렴하게 됩니다. 이때 $B_{k, j}$가 가변수이기 때문에 $B_{k, j}$의 평균은 $\overline{p}_k$와 같습니다. 따라서 위의 식에서 변수를 바꾸면 $P(\left| \overline{p}_{k} - p_{k} \right| < a)$가 $n$이 커질수록 1에 가까워진다가 되므로 명제1이 증명됩니다.
명제2
명제1에서 bin의 개수인 $m$에 대해서 동시에 성립한다. 즉, $P((\left| \overline{B}_{1} - p_{1} \right| < a), (\left| \overline{B}_{2} - p_{2} \right| < a), \dots, (\left| \overline{B}_{m} - p_{m} \right| < a))$가 $n$이 커질수록 1에 수렴한다.
먼저, inclusion-exclusion principle을 기억하셔야합니다.(기억안나시는 분들은 기초통계학[1].경우의 수와 집합(https://everyday-image-processing.tistory.com/6)을 참고하시길 바랍니다.)
이 priciple을 적용하면 두 사건 $A$, $B$에 대한 확률 $P(A)=1-\alpha_{1}, P(B)=1-\alpha_{2}$일 때 $P(A \cap B) \ge 1-(\alpha_{1} + \alpha_{2})$가 됩니다.
그리고 명제1에 의해서 각각의 bin에 대해서 어떠한 $\alpha$에 대해서도 $n$이 충분히 커진다면 $P(\left| \overline{B}_{k}-p_{k} \right| < a) > 1-\frac{1}{1-\frac{\alpha}{m}}$이 됩니다.(이는 수학 해석학의 극한 정리를 통해 알 수 있습니다.) 이때 확률 법칙에 의해서 위의 사건들의 교집합에 대한 확률은 아무리 작아도 $1-\alpha$입니다. 저희는 $n$을 원하는대로 키우는 만큼 $\alpha$ 역시 원하는 대로 줄일 수 있습니다. 따라서 그 극한은 1로 수렴하게 됩니다.
명제3
만약 $[a, b]$에서 $f(x)$가 연속 확률밀도함수라면 데이터의 개수를 충분히 키우고, 각 bin의 너비를 충분히 좁혀서 밀도 히스토그램이 $f(x)$에 충분히 가깝다는 것을 보장할 수 있다.
데이터 $x$의 bin의 너비가 $\Delta x$라고 가정하겠습니다. 만약 $\Delta x$가 충분히 작은 경우 데이터 $x$가 bin안에 포함될 확률은 거의 $f(x)\Delta x$입니다.
이때 명제2는 $n$이 충분히 크다면 높은 확률로 bin안의 데이터의 비율이 거의 $f(x)\Delta x$인 것을 보장하였습니다. 이는 bin의 면적이므로 저희는 그 높이가 거의 $f(x)$이라고 할 수 있습니다. 따라서 높은 확률로 임의의 데이터 $x$에 대한 히스토그램의 높이는 $f(x)$에 가깝습니다.
참고로 명제1, 명제2, 명제3의 증명은 정확한 증명이 아닌 간단하게 요약한 것이므로 혹시 정확한 증명이 필요하신 분들은 다른 곳을 찾아주시길 바랍니다.
2. Chebyshev 부등식
LoLN의 증명을 위한 핵심 키는 바로 Chebyshev 부등식입니다.
Chebyshev 부등식은 $Y$가 평균 $\mu$, 분산 $\sigma^{2}$을 가지는 확률 변수일 때 어떠한 양수 $a$에 대해서
$$P(\left| Y - \mu \right| \ge a) \le \frac{\sigma^{2}}{a^{2}}$$
을 항상 만족합니다.
참고로 이 Chebyshev 부등식은 고등학교에서도 나오는 Cauchy–Schwarz 부등식과 같이 항상 성립하는 절대 부등식 중 하나입니다.
그렇다면 Chebyshev 부등식은 어떤 의미를 가질까요? 식을 보면 확률 변수 $Y$가 평균 $\mu$에서 $a$보다 더 멀리 떨어져있을 확률은 아무리 높아도 $\frac{\sigma^{2}}{a^{2}}$이라는 것입니다. 분산이 작아질수록 평균을 중심으로 퍼지는 정도는 줄어듭니다. 따라서 확률 변수 $Y$가 평균으로부터 $a$만큼 떨어질 확률이 줄어드는 것이죠. 반대로 분산이 커진다면 평균을 중심으로 퍼지는 정도는 커집니다. 따라서 확률 변수 $Y$가 평균으로부터 $a$만큼 떨어질 확률이 커지게됩니다.
Chebyshev 부등식의 증명은 이산확률변수나 연속확률변수나 동일하기 때문에 $Y$가 연속확률변수라고 가정하고 증명하겠습니다. 또한 $\mu=0$라고 가정하겠습니다. 어차피 $\mu$를 다른 값으로 바꾸더라도 그 확률 변수의 분산은 바뀌지 않기때문에 상관은 없습니다.($Var(Y-\mu)=Var(Y)$)
$$P(\left| Y \right| \ge a)=\int_{-\infty}^{-a} f(y) \; dy + \int_{a}^{\infty} f(y) \; dy$$
$$\Rightarrow \le \int_{-\infty}^{-a} \frac{y^{2}}{a^{2}}f(y) \; dy + \int_{a}^{\infty} \frac{y^{2}}{a^{2}}f(y) \; dy$$
$$\Rightarrow \le \int_{-\infty}^{\infty} \frac{y^{2}}{a^{2}}f(y) \; dy=\frac{\sigma^{2}}{a^{2}}$$
첫번째 줄에서 두번째 줄로 바뀔 때 적분 구간에서 $\frac{y^{2}}{a^{2}} \ge 1$ 임을 알 수 있습니다.
두번째 줄에서 세번째 줄로 바뀔 때 적분 구간만 다르고 적분 대상은 동일하므로 적분 구간을 더 크게 잡고 적분 대상만 동일하면 적분 구간을 더 크게 잡은 결과가 더 큰 것을 활용하였습니다.
이를 통해 간단하게 LoLN을 증명해볼 수 있습니다.
$Var(\overline{X}_{n})=\frac{Var(X)}{n}$이기 때문에 $\overline{X}_{n}$의 분산은 $n$이 커질수록 0에 수렴함을 알 수 있습니다. 이때 Chebyshev 부등식에 의해서($Y$를 $\overline{X}_{n}$로 바꾸면 됩니다.) $n$이 커질수록 $\overline{X}_{n}$이 $\mu$로부터 $a$보다 더 떨어질 확률은 0에 수렴하게 됩니다. 이를 다시 바꿔서 생각하면 $\overline{X}_{n}$이 $\mu$로부터 $a$안에 들어갈 확률은 1에 수렴하는 것과 동일한 명제가 되므로 LoLN이 증명됩니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[14].공분산과 상관계수 (0) | 2020.03.27 |
---|---|
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
기초통계학[11].중심극한정리와 큰 수의 법칙 (0) | 2020.03.19 |
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |