안녕하세요. 오늘은 지난 포스팅의 기초통계학[7].연속확률변수(https://everyday-image-processing.tistory.com/13)에 이어서 다양한 연속확률변수의 분포에 대해서 알아보도록 하겠습니다.
참고로 오늘 포스팅에서 나오는 분포는 이산확률변수의 분포와 마찬가지로 각 분포 식을 굳이 외우지 않아도 됩니다!! 여러분들에게는 구글이 있으니 필요할 때마다 찾을 수 있기 때문이죠.
또한 지난 시간의 cdf를 간단하게 '분포'로 표현하겠습니다.
1. 균등 분포(Uniform distribution)
- 변수 : $a$, $b$
- 범위 : $[a, b]$
- 표기 : $uniform(a, b)$, $U(a, b)$
- 확률 밀도 함수 : $a \le x \le b$에 대해서 $f(x)=\frac{1}{b-a}$
균등 분포는 이산확률분포의 균등분포와 동일하게 모든 범위에서 동일한 확률 밀도를 가집니다.(항상 기억하셔야됩니다. 밀도 함수에서 $y$ 축은 확률을 의미하는 것이 아니라 확률 밀도를 의미합니다.) 균등 분포를 그래프로 그려보면 아래와 같습니다.
2. 지수 분포(expronential distribution)
- 변수 : $\gamma$
- 범위 : $[0, \infty]$
- 표기 : $exponential(\gamma)$, $exp(\gamma)$
- 확률 밀도 함수 : $x \ge 0$에 대해서 $f(x)=\gamma e^{-\gamma x}$
- 분포 :
$$F(x)=P(X \le x)=\int_{-\infty}^{x} \gamma e^{-\gamma t} \; dt$$
$$\Rightarrow \gamma \int_{0}^{x} e^{-\gamma t} \; dt $$
$$\Rightarrow \gamma \cdot \left. (-\frac{1}{\gamma}) e^{-\gamma t} \right|_{0}^{x}$$
$$\Rightarrow \gamma \cdot (-\frac{1}{\gamma}) (e^{-\gamma x}-1)$$
$$\Rightarrow 1-e^{-\gamma x}$$
지수 분포는 이산확률분포의 기하 분포와 비슷합니다. 기하 분포는 어떤 상황이 실현될때까지 '기다림'을 하는 것이죠, 지수 분포는 이것의 연속확률변수 버젼입니다. 대표적으로 불안정한 동위 원소가 핵 붕괴를 겪을 때까지의 대기 시간을 모델링 할 수 있습니다. 이때, $\gamma$는 동위 원소의 반감기와 관련이 있습니다.
지수 분포의 가장 중요한 점은 비기억성(Memorylessness)입니다. 예를 들어 길가에서 택시를 기다릴 때 처음 5분 내에 택시가 올 확률을 $p$라고 했을 때, 5분 동안 기다려서 오지 않았다고 하더라도 다음 5분 이내에 택시가 도착할 확률은 여전히 $p$입니다.
사실 이 특성은 이산확률분포의 기하 분포에서도 적용됩니다. 앞면이 나올 때까지 뒷면이 100번 나왔다고 하더라도 앞면이 나올 확률은 변하지 않기 때문이죠.
이 특성을 수식화하면 $P(X > s + t)=P(X > t)$입니다. 즉, $t$분 이상 기다릴 확률이 사건이 없이 이미 $s$분 동안 대기하더라도 영향을 받지 않는다는 것입니다. 심지어 증명도 가능합니다!!
$$(X > s+t) \cap (X > s) =(X > s+t)$$
이기 때문에 $s$분 기다렸다고 해서 사건이 발생활 확률이 바뀌지 않는 다는 것을 보여주기 위해 이미 $s$분 넘게 기다렸다고 했을 때($X>s$), $s$분에서 추가로 $t$분을 기다렸을 때 사건이 발생할 확률과 그냥 $t$분 기다렸을 때 확률이 동일함을 보여주면 됩니다.
$$P(X > s+t|X>s)=\frac{P(X>s+t)}{P(x>s)}=\frac{e^{-\gamma (s+t)}}{e^{-\gamma s}}=e^{-\gamma t}=P(X > t)$$
이므로 증명됩니다.
기하 분포를 그래프로 그려보면 아래와 같습니다.
3. 정규 분포(Normal distribution, Gaussian distribution)
- 변수 : $\mu$, $\sigma$
- 범위 : $(-\infty, \infty)$
- 표기 : $normal(\mu, \sigma^{2})$, $N(\mu, \sigma^{2})$
- 확률 밀도 함수 :
$$f(x)=\frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$$
- 분포 : 아쉽게도 $F(x)$는 구할 수 없고 수치적인 방법으로 값을 구할 수 있습니다.
통계학에서 가장 많이 쓰이기 때문에 반드시 알아야하는 분포입니다. 정규분포에서 $\mu$는 평균, $\sigma$은 표준편차를 의미합니다.
3.1. 표준 정규 분포(standard normal distribution)
평균($\mu$)가 0이고 표준편차($\sigma$)가 1인 정규 분포입니다. 확률밀도함수는 $\phi(z)=\frac{1}{2\sqrt{2\phi}}e^{-\frac{x^{2}}{2}}$가 됩니다. 표준 정규 분포를 그래프로 그리면 아래와 같습니다.
표준 정규 분포가 중요한 이유는 수치 계산이 훨씬 간단하기 때문입니다. 실제로 저는 고등학교 통계에서 적어도 $P(-1 \le Z \le 1)=0.68$, $P(-2 \le Z \le 2)=0.95$, $P(-3 \le Z \le 3)=0.99$ 정도는 외우고 있었습니다.
표준 정규 분포의 중요한 특성 중 하나는 $P(Z \le 0)=P(Z \ge 0)=0.5$이라는 점입니다. 대칭성을 가진다는 이야기죠. 이러한 대칭성을 통해 예시로 든 3가지 결과 뿐만 아니라 더 많은 계산을 할 수 있습니다. 예를 들어서 $\pht(1)$을 계산해보겠습니다.
$$\phi(1)=P(Z \le 1)=P(Z \le 0)+P(Z \le 1)=P(Z \le 0)+\frac{1}{2} \cdot P(-1 \le Z \le 1)=0.5+\frac{1}{2} \cdot 0.68=0.84$$
입니다. 이를 그림으로 그리면 아래와 같지요.
4. 파레토 분포
- 변수 : $m \ge 0$, $\alpha \ge 0$
- 범위 : $[m, \infty)$
- 표기 : $Pareto(m, \alpha)$
- 확률 밀도 함수 : $f(x)=\frac{\alpha m^{\alpha}}{x^{\alpha + 1}}$
- 분포 :
$$F(x)=P(X \le x)=\int_{-\infty}^{x} \frac{\alpha m^{\alpha}}{t^{\alpha + 1}} \; dt$$
$$\Rightarrow \int_{m}^{x} \frac{\alpha m^{\alpha}}{t^{\alpha + 1}} \; dt$$
$$\Rightarrow \int_{m}^{x} \alpha m^{\alpha} t^{-\alpha - 1} \; dt$$
$$\Rightarrow \alpha m^{\alpha} \left. \frac{1}{-\alpha} t^{-\alpha} \right|_{m}^{x}$$
$$\Rightarrow m^{\alpha} (m^{-\alpha} - x^{-\alpha})$$
$$\Rightarrow 1-m^{\alpha}x^{-\alpha}$$
$$\Rightarrow 1-\frac{m^{\alpha}}{x^{\alpha}}$$
파레토 분포는 거듭 제곱 법칙을 모델링합니다. 대체적으로 사회과학현상(인구 전체의 소득 수준, 도시 전체의 인구 수)에서 많이 보입니다.
기초통계학[9].연속확률변수의 조작(https://everyday-image-processing.tistory.com/15)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |
---|---|
기초통계학[9].연속확률변수의 조작 (0) | 2020.03.16 |
기초통계학[7].연속확률변수 (0) | 2020.03.14 |
기초통계학[6].이산확률변수의 분산 (0) | 2020.03.13 |
기초통계학[5]. 이산확률변수의 기댓값 (0) | 2020.03.12 |