안녕하세요. 오늘은 지난 시간의 기초통계학[9].연속확률변수의 조작(https://everyday-image-processing.tistory.com/15)에 이어서 연속확률변수의 기댓값, 분산, 표준편차, 그리고 분위수에 대해서 알아보겠습니다.
지금까지 저희는 이산확률변수의 기댓값, 분산, 표준편차에 대해서만 공부했습니다. 공식을 기억하실지는 모르겠지만 연속확률변수와 이산확률변수의 차이점이 $\sum$이 $\int$로 바뀌는 것밖에 없으니 이산확률변수를 이해했다면 빠르게 알 수 있습니다.
추가적으로 요약 통계량 중 하나인 분위수(quantiles)에 대해서 공부하고 마치도록 하겠습니다.
1. 연속확률변수의 기댓값
연속확률변수의 기댓값은 $\int_{a}^{b} xf(x) \; dx$로 정의됩니다. 이산확률변수의 기댓값은 $\sum_{i=1}^{n} x_{i}p(x_{i})$입니다. 연속확률변수와 큰 차이점이 없습니다!
이산확률변수의 기댓값은 확률($p(x_{i})$)의 가중합(weighted sum)으로 해석할 수 있습니다.연속확률변수도 마찬가지인데요. $f(x)$의 단위가 $\frac{probability}{unit\ x}$인 것을 알면 $f(x)dx=\frac{probability}{unit\ x} \cdot unit\ x$이기 때문에 $f(x)dx$가 확률을 의미하게 되고 그 확률에 $x$를 곱하여 가중 적분(weghted integral)을 통해서 연속확률변수의 기댓값을 얻는 모습을 볼 수 있습니다.
물론 연속확률변수에서도 기댓값은 평균(mean, average)로 불립니다.
간단한 예제를 통해서 알아보겠습니다.
$X \sim {\sf U}(0, 1)$일 때 $E(X)$를 구해봅시다.
$X$가 균등 분포를 따르기 때문에 $f(x)=1$입니다. 그러므로 $E(X)=\int_{0}^{1} xf(x) \; dx=\int_{0}^{1} x \; dx=\left. \frac{1}{2}x^{2} \right|_{0}^{1}=\frac{1}{2}$입니다.
이제 더 복잡한 예제를 풀어보도록 하겠습니다!!
Ex1. $X$가 $[0, 2]$에서 확률밀도함수 $f(x)=\frac{3}{8}x^{2}$일 때, $E(X)$는?
Answer
$E(X)=\int_{0}^{2} xf(x) \; dx=\int_{0}^{2} \frac{3}{8}x^{3} \; dx=\left. \frac{3}{32}x^{4} \right|_{0}^{2}=\frac{3}{2}$
참고로 기댓값은 전체 확률밀도함수에서 중앙에 가까운 위치에 있을 것으로 예상됩니다. 실제로 그림을 그려보면 아래의 그림이 될 것으로 예상할 수 있죠.
이때, $X$의 중앙은 1인데 1.5가 기댓값인 이유는 $X=2$ 부분의 확률이 더 높기때문에 그 방향으로 편향된것으로 볼 수 있습니다.
Ex2. $X \sim {\sf exp}(\gamma)$일 때, $E(X)$은?
Answer
$E(X)=\int_{0}^{\infty} xf(x) \; dx=\int_{0}^{\infty} \gamma xe^{-\gamma x} \; dx$
참고로 이 적분을 하려면 부분적분과 특이적분이라는 방법을 알아야합니다. $\mu = x, v^{'}=\gamma e^{-\gamma x}$ $\Rightarrow \mu^{'}=1, v=-e^{-\gamma x}$
$$E(X)=\int_{0}^{\infty} \gamma xe^{-\gamma x} \; dx$$
$$\Rightarrow \left. -xe^{-\gamma x} \right|_{0}^{\infty} + \int_{0}^{\infty} e^{-\gamma x} \; dx$$
$$\Rightarrow 0-\left. \frac{e^{-\gamma x}}{\gamma} \right|_{0}^{\infty} $$
$$\Rightarrow \frac{1}{\gamma}$$
참고로 $xe^{-\gamma x}, e^{-\gamma x} \rightarrow 0\ as\ x \rightarrow \infty$입니다.
Ex3. $Z \sim {\sf N}(0, 1)$일 때 $E(Z)$은?
Answer
$z \in [-\infty, \infty]$에서 $\phi(z)=\frac{1}{\sqrt{2\pi}}\int_{0}^{\infty} ze^{-\frac{z^{2}}{2}} \; dz$임을 먼저 알아야합니다. 참고로 $z\phi(z)$는 0을 중심으로 원점대칭함수이기 때문에 $[0, \infty]$만 구하면 됩니다.
$$\int_{0}^{\infty} z\phi(z) \; dz = \frac{}{\sqrt{2\pi}}\int_{0}^{\infty} ze^{-\frac{z^{2}}{2}}$$
또한 이 적분을 위해서는 치환적분을 알아야합니다. $\frac{z^{2}}{2}=u$라고 하면 $zdz=du$입니다.
$$\Rightarrow \frac{1}{\sqrt{2\pi}}\int_{0}^{\infty} ze^{-\frac{z^{2}}{2}} \; dz = \frac{1}{\sqrt{2\pi}}\int_{0}^{\infty} e^{-u} \; du$$
$$\Rightarrow \left. -e^{-u} \right|_{0}^{\infty}=1$$
따라서 $\int_{-\infty}^{0} z\phi(z) \; dz=-1$입니다. 그러므로 두 결과를 합지면 $E(Z)=1-1=0$이 됩니다.
1.1. 기댓값의 성질
연속확률변수의 기댓값 역시 이산확률변수와 동일한 성질(선형성)을 가지고 있습니다.
1. $X$와 $Y$가 연속확률변수일 때 $E(X+Y)=E(X)+E(Y)$입니다.
2. $a$와 $b$가 상수일 때 $E(aX+b)=aE(X)+b$입니다.
위의 성질을 통해서 $X \sim {\sf N}(\mu, \sigma)$일 때 $E(X)=\mu$임을 알 수 있습니다.
3번 예제에 의해서 $E(Z)=0$임을 알았습니다. 또한 이전의 포스팅에서 $Z=\frac{X-\mu}{\sigma}$인 관계가 있다는 것도 알았습니다. 따라서 $X=\sigma Z + \mu$입니다.
이를 기댓값의 선형성을 적용하면 $E(X)=E(\sigma Z + \mu)=\sigma E(Z) + \mu=\mu$입니다.
1.2. 함수로 정의된 X의 기댓값
이 역시 이산확률변수에서 보던것과 동일합니다.
$X$가 연속확률변수이고 $h(x)$가 함수일 때, $Y=h(X)$는 연속확률변수이고 $E(Y)=E(h(X))=\int_{-\infty}^{\infty} h(x)f_{X}(x) \; dx$입니다.
이를 통해서 $X \sim {\sf exp}(\gamma)$일 때 $E(X^{2})$을 구할 수 있습니다.
$$E(X^{2})=\int_{0}^{\infty} x^{2}\gamma e^{-\gamma x} \; dx$$
여기에 2번째 예제에서 사용된 부분적분을 활용하면 됩니다.
$$\Rightarrow \left. -x^{2}e^{-\gamma x} -\frac{2x}{\gamma}e^{-\gamma x} - \frac{2}{\gamma^{2}}e^{-\gamma x} \right|_{0}^{\infty}=\frac{2}{\gamma^{2}}$$
이 성질이 중요한 이유는 다음 절의 분산을 구할 때 요긴하게 사용됩니다.
2. 연속확률변수의 분산
연속확률변수의 분산은 $E(X)=\mu$라고 했을 때 $Var(X)=E((X-\mu)^{2})$으로 이산확률변수의 분산과 동일한것을 볼 수 있습니다. 또한 표준편차는 $\sqrt{Var(X)}$입니다.
그 특성 또한 이산확률변수의 분산의 특성와 동일합니다.
1. $X$와 $Y$가 서로 독립이라면 $Var(X+Y)=Var(X)+Var(Y)$입니다.
2. 임의의 $a$, $b$에 대해서 $Var(aX+b)=a^{2}Var(X)$입니다.
3. $Var(X)=E(X^{2})-E(X)^{2}=E(X^{2})-\mu^{2}$
간단한 예제를 통해서 알아보겠습니다.
$X \sim {\sf U}(0, 1)$일 때 $Var(X)=\int_{0}^{1} (x-\frac{1}{2})^{2} \; dx=\int_{0}^{1} x^{2}-x-\frac{1}{4} \; dx=\frac{1}{12}$이고 $\sigma=\sqrt{\frac{1}{12}}$입니다.
이제 더 복잡한 예제를 보겠습니다!
Ex4. $X \sim {\sf exp}(\gamma)$일 때, $Var(X)$와 $\sigma(X)$는?
Answer
이전의 예시에 의해서 $E(X)=\frac{1}{\gamma}$이고 $E(x^{2})=\frac{2}{\gamma^{2}}$입니다.
따라서 공식을 활용하면 $Var(X)=E(X^{2})-E(X)^{2}=\frac{2}{\gamma^2}-\frac{1}{\gamma^2}=\frac{1}{\gamma^{2}}$입니다. 또한 $\sigma=\sqrt{Var(X)}=\sqrt{\frac{1}{\gamma^{2}}}=\frac{1}{\gamma}$입니다.
Ex5. $Z \sim {\sf N}(0, 1)$일 때 $Var(Z)=1$임을 보이세요
Answer
Ex3에 의해서 $E(Z)=0$이기 때문에 $E(Z^{2})$만 계산하면 됩니다.
$$Var(Z)=E(Z^{2})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty} z^{2}e^{-\frac{z^{2}}{2}}$$
이 역시 계산을 위해서 부분적분을 사용해야합니다.(미적분학을 잘 학습해야하는 이유이죠.)
$\mu=z, v^{'}=ze^{-\frac{z^{2}}{2}} \rightarrow \mu^{'}=1, v=-e^{-\frac{z^{2}}{2}}$를 적용합니다.
$$\Rightarrow \frac{1}{\sqrt{2\pi}}(\left. -ze^{-\frac{z^{2}}{2}} \right|_{-\infty}^{\infty})+\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty} e^{-\frac{z^{2}}{2}} \; dz$$
첫번째 식이 지수가 0으로 수렴하는 것을 생각하고 두번째 식은 $\phi(z)$의 전체 적분을 한것이기 때문에 확률밀도함수의 성질에 의해서 $Var(Z)=1$입니다.
분산의 성질을 활용하여 이번에는 $X \sim {\sf N}(\mu, \sigma)$일 때 $Var(X)=\sigma^{2}$임을 증명할 수 있습니다. $Z=\frac{X-\mu}{\sigma}$이기 때문에 $X=\sigma Z + \mu$입니다. 따라서 $Var(X)=Var(\sigma Z +\mu)=\sigma^{2} Var(Z)=\sigma^{2}$이고 $\sigma=\sqrt{Var(X)}=\sqrt{\sigma^{2}}=\sigma$입니다.
3. 분위수(Quantiles)
확률 변수 $X$의 중앙값(median)은 $P(X \le x)=0.5$인 $x$로 정의됩니다. 이를 cdf로 표현하면 $F(x)=0.5$인 $x$로도 정의될 수 있습니다.
예를 들어서 정규 분포의 경우 평균이 $\mu$라고 했을 때 $P(Z \le \mu)=0.5$이기 때문에 정규 분포의 중앙값은 $\mu$입니다.
다른 예시로 $X \sim {\sf exp}(\gamma)$일 때 $X$의 중앙값을 구해보겠습니다. $F(x)=1-e^{-\gamma x}$이기 때문에 $F(x)=1-e^{-\gamma x}=0.5$라고 하면 $x=\frac{ln 2}{\gamma}$입니다.
지수 분포의 예시가 시사하는 바는 중앙값과 기댓값은 항상 같지 않다라는 점입니다.
여기서 중앙값은 분위수의 특수한 경우로 더 일반화시켜 표현 할 수 있습니다. $X$의 $p^{th}$의 분위수는 $P(X \le q_{p})=p$인 $q_{p}$로 정의합니다. 중앙값은 $q_{0.5}$와 같습니다. 분위수를 간단하게 표현하기 위해서 cdf를 활용하면 $F(q_{p})=p$입니다.
간단한 예시를 보겠습니다. $X \sim {\sf U}(0, 1)$일 때 $q_{0.6}$을 얻기 위해서 먼저 cdf를 얻습니다. $x \in [0, 1]$에서 $F(x)=x$이기 때문에 $q_{0.6}=0.6$입니다.
3.1. 백분위수(Percentiles), 십분위수(Deciles), 사분위수(Quartiles)
보통 편의를 위해서 분위수를 백분위수, 십분위수, 사분위수로 표현하기도 합니다. 예를 들어 $60^{th}$ 백분위수는 $q_{0.6}$과 동일한 표현으로 사용됩니다.
십분위수의 경우에는 분위수를 $\frac{1}{10}$단위로 나누어 표현한 것이고, 사분위수의 경우에는 분위수를 $\frac{1}{4}$단위로 나누어 표현한 것입니다.
기초통계학[11].중심극한정리와 큰 수의 법칙(https://everyday-image-processing.tistory.com/18)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
---|---|
기초통계학[11].중심극한정리와 큰 수의 법칙 (0) | 2020.03.19 |
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |
기초통계학[8].연속확률변수의 분포 (1) | 2020.03.16 |
기초통계학[7].연속확률변수 (0) | 2020.03.14 |