안녕하세요. 오늘은 지난 시간의 기초통계학[5].이산확률변수의 기댓값(https://everyday-image-processing.tistory.com/10)에 이어서 이산확률변수의 분산을 알아보도록 하겠습니다.
1. 퍼짐(spread)
지난 시간에 기댓값에 대해서 알아봤는데 확률 분포에 있어 기댓값이란 그 분포의 중심을 나타내는 측도라고 언급하였습니다. 따라서, 만약 확률 분포의 특성을 간단하게 한 개의 숫자로 표현하고자 할 때 기댓값은 좋은 선택입니다. 하지만 서로 다른 분포가 있습니다. 그 두 분포의 기댓값이 같다면 두 분포의 특성은 완전히 같다고 할 수 있을까요?
$X$ | -2 | -1 | 0 | 1 | 2 | |
$Y$ | -3 | 3 |
pmf | $\frac{1}{10}$ | $\frac{2}{10}$ | $\frac{4}{10}$ | $\frac{2}{10}$ | $\frac{1}{10}$ | pmf | $\frac{1}{2}$ | $\frac{1}{2}$ |
위의 $X$와 $Y$의 확률 변수에 대한 확률 분포 표를 통해서 기댓값을 계산해보겠습니다.
$$E(X)=(-2) \cdot \frac{1}{10} + (-1) \cdot \frac{2}{10} + 0 \cdot \frac{4}{10} + 1 \cdot \frac{2}{10} + 2 \cdot \frac{1}{10}=0$$
$$E(Y)=(-3) \cdot \frac{1}{2} + 3 \cdot \frac{1}{2}=0$$
$X$와 $Y$의 기댓값이 같은 것을 볼 수 있습니다. 하지만 확률 분포 표의 그림으로 그려보면 완전히 다릅니다.
확실히 $Y$ 분포가 $X$ 분포에 비해 기댓값인 0을 중심으로 더 퍼져있습니다. 그렇습니다. 이러한 경우에는 기댓값이 아닌 퍼져있는 정도를 통해서 분포의 특성을 설명하는 것이 좋을 것 같습니다. 이제 '퍼져있는 정도'를 측정하는 방법에 대해서 알아보겠습니다.
2. 분산(Variance)과 표준 편차(Standard deviation)
이전 절에서 설명했던 퍼져있는 정도를 측정하는 방법이 분산이나 표준 편차를 계산하는 것입니다.
-분산 : $Var(X)=E((X-\mu)^{2})$
-표준 편차 : $\sigma=\sqrt{Var(X)}$
* 분산과 표준 편차 사이의 관계로 인해 분산을 $\sigma^{2}$으로 나타내기도 합니다.
* 표준 편차는 분산을 구하기위해서 제곱을 했기 때문에 다시 제곱근을 씌워주는 것입니다.
그렇다면 왜 분산을 구하는 식이 퍼진 정도를 나타내고 있는지 알아보겠습니다. 확률 변수 $X$가 $x_{1}, x_{2}, \dots, x_{n}$을 가지고 있다고 가정하고 식을 정리하면 아래와 같습니다.
$$Var(X)=E((X-\mu)^{2})=\sum_{i=1}^{n} p(x_{i})(x_{i}-\mu)^{2}$$
이때 거리에 제곱을 적용하는 이유는 확률 변수가 아닌 단순히 데이터 간 분산을 계산할 때 문제가 되기 때문입니다. 단순히 평균을 뺀 $x_{i}-\mu$를 편차라고 부르는 데 이들의 합은 항상 0이기 때문입니다. 왜냐하면 $\sum_{i=1}^{n} x_{i}-\mu=(x_{1}+x_{2}+\dots+x_{n})-n \cdot \mu=(x_{1}+x_{2}+\dots+x_{n})-n \cdot \frac{x_{1}+x_{2}+\dots+x_{n}}{n}=0$이기 때문이죠. 뿐만 아니라 데이터에 평균을 빼게 되면 항상 평균보다 작은 값이 존재하기 때문에 음수값이 생기게 되고 이러한 상쇄효과를 없애기위한 방법으로 제곱을 적용했습니다.
위 식을 해석하면 기댓값($\mu$)로부터 떨어진 $x_{i}$까지의 거리의 제곱을 가중 평균을 적용한 것입니다. 따라서 데이터가 기댓값으로부터 많이 떨어져있을수록(멀리 퍼져있을수록) 더 식은 더 큰 값을 가지기 때문에 퍼진 정도로 해석할 수 있습니다.
1.$\sigma$는 $X$와 같은 단위를 갖습니다. 여기서 말하는 단위는 길이를 측정하는 m(미터), 부피를 측정하는 L(리터)입니다.
2.$Var(X)$는 $X$의 제곱에 해당하는 단위를 갖습니다.
3.따라서 $\sigma$는 퍼진 정도를 실제 $X$의 단위로 측정해볼 수 있습니다.
Ex1. 아래의 확률 분포에서 기댓값, 분산, 표준편차를 계산하시오.
$X$ | 1 | 3 | 5 |
$p(x)$ | $\frac{1}{4}$ | $\frac{1}{4}$ | $\frac{1}{2}$ |
Answer
먼저 기댓값부터 계산합니다. $E(X)=1 \cdot \frac{1}{4} + 3 \cdot \frac{1}{4} + 5 \cdot \frac{1}{2}=\frac{7}{2}$입니다.
이제 분산을 구하기위해 가장 아래에 $(X-\frac{7}{2})^{2}$을 포함하는 확률 분포표를 그립니다.
$X$ | 1 | 3 | 5 |
$p(x)$ | $\frac{1}{4}$ | $\frac{1}{4}$ | $\frac{1}{2}$ |
$(X-\frac{7}{2})^{2}$ | $\frac{25}{4}$ | $\frac{1}{4}$ | $\frac{9}{4}$ |
따라서, $Var(X)=\frac{25}{4} \cdot \frac{1}{4} + \frac{1}{4} \cdot \frac{1}{4} + \frac{9}{4} \cdot \frac{1}{2}=\frac{11}{4}$이고 표준편차는 $\sigma=\sqrt{\frac{11}{4}}$
저번 포스팅에서도 각종 이산확률분포의 기댓값을 계산하기 전에 먼저 베르누이 분포의 기댓값을 계산하였습니다. 이번에도 먼저 베르누이 분포의 분산을 계산해보도록 하겠습니다.
$X \sim {\sf Bernoulli}(p)$라고 가정하겠습니다.
이전 포스팅에 의해서 $E(X)=p$임을 알고 있습니다. 위의 예시처럼 먼저 $(X-\mu)^{2}$을 포함하는 확률 분포표를 그립니다.
$X$ | 0 | 1 |
$p(x)$ | $1-p$ | $p$ |
$(X-\mu)^{2}$ | $p^{2}$ | $(1-p)^{2}$ |
따라서 $Var(X)=(1-p) \cdot p^{2} + p \cdot (1-p)^{2}=p(1-p)$입니다.
베르누이 분포의 기댓값을 암기하고 있던 것처럼 베르누이 분포의 분산 역시 자주 활용될 예정이니 암기하는 것이 좋습니다.
2.1. 독립
사실 독립은 기초통계학[3].조건부 확률, 독립, 베이지안 법칙(https://everyday-image-processing.tistory.com/8)에서 설명하였습니다. 하지만 이전에 설명한 독립은 단순히 '사건'에 대해 독립을 정의한 것입니다.
하지만 현재 저희는 확률 변수를 다루고 있죠. 따라서 독립을 확률 변수에 따라 다시 정의해야하겠습니다. 저희가 두 사건간의 독립을 정의할 때 사용했던 직관은 두 사건은 서로 영향을 주지 않는다라는 것이였습니다. 확률 변수에서도 비슷한 직관을 가집니다!! 직관적으로는 $X$라는 확률 변수를 알고 있는 것이 $Y$라는 확률 변수를 이해하는 데에 있어 전혀 상관이 없다라는 점입니다.
- 모든 $a$, $b$에 대해서 $P(X=a, Y=b)=P(X=a)P(Y=b)$라면 이산확률변수 $X$와 $Y$가 서로 독립이다.
2.2. 분산의 성질
이전 포스팅에서 기댓값의 성질인 선형성을 살펴보았듯이 이번에는 분산의 3가지 성질을 살펴보겠습니다.
1.만약 확률 변수 $X$와 $Y$가 서로 독립이라면 $Var(X+Y)=Var(X)+Var(Y)$이다. 이 성질에서 중요한 점은 $X$와 $Y$가 서로 독립이여야한다는 점입니다. 서로 독립이 아니라면 이 식은 성립하지 않죠. 사실 이 식은 이후에 배울 공분산(covariance)의 성질 중에 하나를 특수한 조건을 통해 식을 변경한 것입니다. 이때 특수한 조건은 $X$와 $Y$가 서로 독립이라는 조건입니다.
2.임의의 상수 $a$, $b$에 대해서 $Var(aX+b)=a^{2}Var{X}$이다.
3.$Var(X)=E(X^{2})-E(X)^{2}$이다. 이 성질이 가장 중요합니다. 왜냐하면 위에서 계산하듯이 기댓값을 구하고 확률 변수에서 기댓값을 뺀 결과의 제곱을 확률 분포표에 추가하여 분산을 구하는 과정을 생략하고 빠르게 계산할 수 있습니다.
Ex2. $X$와 $Y$가 서로 독립이고 $Var(X)=3$, $Var(Y)$=5일 때, $Var(X+Y)$, $Var(X+3Y)$를 계산하시오.
Answer
1). $X$와 $Y$가 서로 독립이기 때문에 $Var(X+Y)=Var(X)+Var(Y)=8$
2). $X$와 $Y$가 서로 독립이기 때문에 $Var(X+3Y)=Var(X)+Var(3Y)=Var(X)+9Var(Y)=48$
Ex3. 이전에 구했던 베르누이 분포의 분산을 분산의 성질 3을 이용해서 계산하시오
Answer
$Var(X)=E(X^{2})-E(X)^{2}=(1^{2} \cdot p+ 0^{2} \cdot (1-p)) - p^{2})=p(1-p)$
Ex4. 이항 분포의 분산을 구하시오.
Answer
$X \sim {\sf bino}(n, p)$이기 때문에 $j=1, 2, \dots , n$에 대해서 $X_j$는 서로 독립된 베르누이 시행입니다.
또한 이항 분포의 확률 분포는 베르누이 시행의 합임을 이전 포스팅에서도 알아봤습니다. 따라서 분산의 성질 1을 통해서 $Var(X)=Var(X_{1}+X_{2}+\dots+X_{n})=Var(X_{1})+Var(X_{2})+\dots+Var(X_{n})=p(1-p)+p(1-p)+\dots+p(1-p)=np(1-p)$입니다.
Ex5. 균등 분포의 분산을 구하시오.
Answer
$X \sim {\sf uniform}(n)$이라고 하면 균등 분포의 기댓값이 $\frac{n+1}{2}$임을 알고 있습니다. 따라서
$Var(X)=E(X^{2})-E(X)^{2}=\sum_{x=1}^{n} x^{2}\frac{1}{n}-(\frac{n+1}{2})^{2}=\frac{n(n+1)(2n+1)}{6}\frac{1}{n}-(\frac{n+1}{2})^{2}=\frac{n^{2}-1}{12}$입니다.
Ex6. 기하 분포의 분산을 구하시오.
Answer
$X \sim {\sf geometric}(p)$이라고 하면 기하 분포의 기댓값이 $\frac{1-p}{p}$임을 알고 있습니다. 지난 포스팅을 기억하실지는 모르겠지만 기하 분포의 기댓값을 구하기 위한 여정이 꽤나 험난했던 걸로 알고 계실껍니다. 아쉽게도 분산 역시 상당히 복잡합니다. 하지만 한 줄씩 이해하면서 따라오시면 충분히 이해가능합니다.
먼저, $Var(X)=E(X^{2})-E(X)^{2}=E(X^{2})-(\frac{1-p}{p})^{2}$이기 때문에 저희는 $E(X^{2})=\sum_{x=0}^{\infty} x^{2}p(1-p)^{x}$만 계산하면 됩니다. 이를 위해서 보조 함수 $f(p)=\sum_{x=0}^{\infty} (1-p)^{x}$로 정의합니다.
$$f(p)=\frac{1}{1-(1-p)}=\frac{1}{p}$$
$$f^{'}(p)=-\frac{1}{p^{2}}$$
$$f^{''}(p)=\frac{2}{p^{3}}$$
이때 $f^{''}(p)=sum_{x=1}^{\infty} x(x-1)(1-p)^{x-2}$가 되기도 합니다. 따라서
$$\frac{2}{p^{3}}=\sum_{x=1}^{\infty} x(x-1)(1-p)^{x-2}$$
$$\frac{2}{p^{3}}=\sum_{x=1}^{\infty} (x^{2}-x)(1-p)^{x-2}$$
$$\frac{2}{p^{3}}=\sum_{x=1}^{\infty} x^{2}(1-p)^{x-2}-\sum_{x=1}^{\infty} x(1-p)^{x-2}$$
$$p\frac{2}{p^{3}}=p\sum_{x=1}^{\infty} x^{2}(1-p)^{x-2}-p\sum_{x=1}^{\infty} x(1-p)^{x-2}$$
$$\frac{2}{p^{2}}=\sum_{x=1}^{\infty} x^{2}p(1-p)^{x-2}-\sum_{x=1}^{\infty} xp(1-p)^{x-2}$$
$$\frac{2}{p^{2}}=\frac{1}{1-p}\sum_{x=1}^{\infty} x^{2}p(1-p)^{x-1}-\frac{1}{1-p}\sum_{x=1}^{\infty} xp(1-p)^{x-1}$$
$$\frac{2}{p^{2}}=\frac{1}{1-p}\sum_{x=0}^{\infty} x^{2}p(1-p)^{x-1}-\frac{1}{1-p}\sum_{x=0}^{\infty} xp(1-p)^{x-1}$$
$$\frac{2(1-p)}{p^{2}}=E(X^{2})-\frac{1}{p}$$
$$E(X^{2})=\frac{2(1-p)}{p}$$
이렇게 $E(X)$와 $E(X^{2})$를 얻었습니다. 따라서, $Var(X)=E(X^{2})-E(X)^{2}=\frac{2(1-p)}{p}-\frac{1-p}{p}=\frac{1-p}{p}$를 얻을 수 있습니다!!
이렇게 모든 이산 확률 분포에 대한 기댓값과 분산을 구해보았습니다.
***2.3. 분산의 성질 증명
마지막으로 성질 1을 제외하고 성질 2와 성질 3만 증명하도록 하겠습니다. 성질 1의 경우에는 이후에 더 일반적인 케이스를 증명함으로써 얻을 수 있습니다.
성질 2 : 임의의 상수 $a$, $b$에 대해서 $Var(aX+b)=a^{2}Var(X)$이다.
$\mu=E(X)$라고 하면 $E(aX+b)=\mu a + b$입니다. 따라서
$$Var(aX+b)=E((aX+b-(a\mu+b))^{2})=E((aX-a\mu)^{2})=E(a^{2}(X-\mu)^{2})=a^{2}E((X-\mu)^{2})=a^{2}Var(X)$$
성질 3 : $Var(X)=E(X^{2})-E(X)^{2}$이다.
$\mu=E(X)$라고 하겠습니다.
$$E((X-\mu)^{2})=E(X^{2} - 2 \mu X + \mu^{2})=E(X^{2})-2 \mu E(X)+\mu^{2}=E(X^{2})-2\mu^{2}+\mu^{2}=E(X^{2})-\mu^{2}=E(X^{2})-E(X)^{2}$$
기초통계학[7].연속확률변수(https://everyday-image-processing.tistory.com/13)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[8].연속확률변수의 분포 (1) | 2020.03.16 |
---|---|
기초통계학[7].연속확률변수 (0) | 2020.03.14 |
기초통계학[5]. 이산확률변수의 기댓값 (0) | 2020.03.12 |
기초통계학[4].이산확률변수 (0) | 2020.03.08 |
기초통계학[3].조건부 확률, 독립, 베이지안 법칙 (0) | 2020.03.07 |