안녕하세요. 오늘은 지난 기초통계학[12].밀도 히스토그램, Chebyshev 부등식(https://everyday-image-processing.tistory.com/19)에 이어서 결합확률분포와 독립성에 대해서 알아보겠습니다.
1. 결합확률분포(Joint Distributions)
실제에서 저희는 단일 대상에 대해서 여러가지 변수를 동시에 얻는 것에 관심있는 경우가 더 많습니다. 간단하게 생각해볼까요? 저희는 기린이라는 대상을 연구하고 있다고 가정하겠습니다. 기린이라는 대상의 특성이 목의 길이만 중요한 것은 아닙니다. 다리 길이, 꼬리의 길이, 머리 크기, 눈의 크기, 얼룩의 분포와 같이 사소한 특징부터 중요한 특징까지 알고 싶습니다. 그렇다면 이러한 특성들끼리 어떤 특징을 가지고 있지는 않을 까요? 목의 길이와 다리의 길이 간 상관 관계, 또는 머리의 크기와 눈의 크기간 상관 관계를 알고 싶습니다. 이 경우 저희가 사용할 수 있는 도구가 결합확률분포입니다. 한 가지 대상에 대해 여러가지 변수의 분포를 확인할 수 있죠. 하지만 지금 저희는 손으로 그려야합니다. 따라서 더 많은 특징간의 결합확률분포, 즉 고차원 결합확률분포를 확인하지 않고 2개의 확률 변수에 대한 2차원 결합확률분포를 알아보도록 하겠습니다.
1.1. 이산 결합확률분포
$X=\{x_{1}, x_{2}, \dots, x_{n}\}$와 $Y=\{y_{1}, y_{2}, \dots, y_{m}\}$가 이산확률변수라고 가정하겠습니다. 그렇다면 $(X, Y)=\{(x_{1}, y_{1}), (x_{1}, y_{2}), \dots, (x_{n}, y_{m})\}$의 순서쌍을 생각합니다. 이때 $X$와 $Y$의 결합 확률 질량 함수(joint probability mass function; joint pmf)는 $X=x_{i}$, $Y=y_{j}$가 동시에 나오는 확률 함수 $p(x_{i}, y_{j})$로 정의합니다.
위의 정의를 바탕으로 결합 확률 표(joint probability table)를 그릴 수 있습니다.
$X$, $Y$ | $y_{1}$ | $y_{2}$ | $\dots$ | $y_{j}$ | $\dots$ | $y_{m}$ |
$x_{1}$ | $p(x_{1}, y_{1})$ | $p(x_{1}, y_{2})$ | $\dots$ | $p(x_{1}, y_{j})$ | $\dots$ | $p(x_{1}, y_{m})$ |
$x_{2}$ | $p(x_{2}, y_{1})$ | $p(x_{2}, y_{2})$ | $\dots$ | $p(x_{2}, y_{j})$ | $\dots$ | $p(x_{2}, y_{m})$ |
$\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
$x_{i}$ | $p(x_{i}, y_{1})$ | $p(x_{i}, y_{2})$ | $\dots$ | $p(x_{i}, y_{j})$ | $\dots$ | $p(x_{i}, y_{m})$ |
$\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
$x_{n}$ | $p(x_{n}, y_{1})$ | $p(x_{n}, y_{2})$ | $\dots$ | $p(x_{n}, y_{j})$ | $\dots$ | $p(x_{n}, y_{m})$ |
예제 1. 주사위 2번 굴린다고 가정했을 때, $X$를 첫번째 주사위의 결과, $Y$를 두번째 주사위의 결과라고 하겠습니다.
확률 변수 $X$와 $Y$ 둘 다 동일한 확률로 1~6사이의 값을 가지는 것을 알 것입니다. 따라서 $1 \le i, j \le 6$에 대해서 $p(i, j)=\frac{1}{36}$입니다. 이를 결합 확률 표로 작성할 수 있습니다
$X$, $Y$ | 1 | 2 | 3 | 4 | 5 | 6 |
1 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
2 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
3 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
4 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
5 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
6 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
방금 정의한 결합 확률 질량 함수 역시 이전에 정의했던 확률 질량 함수와 유사한 성질을 가져야합니다.
1). $0 \le p(x_{i}, y_{j}) \le 1$
2). 전체 확률 변수에 대한 확률 합은 1이여야 합니다. 이를 2개의 합으로 표현할 수 있습니다. $$\sum_{i=1}^{n}\sum_{j=1}^{m} p(x_{i}, y_{j}) = 1$$
1.2. 연속 결합 확률 분포
사실 연속 결합 확률 변수도 본질은 이산 확률 변수인 경우와 동일합니다. 이산 확률 변수를 연속 확률 변수로 바꾸고 결합 확률 밀도 함수(joint probability density function)로, 마지막으로 합을 적분으로 바꾸면 됩니다.(어렵지 않지요.)
만약 $X$가 $[a, b]$의 값을 가지고 $Y$가 $[c, d]$의 값을 가진다면 $(X, Y)$는 집합곱 형태로 $[a, b] \times [c, d]$의 범위를 가지게 됩니다. 이때 $X$와 $Y$의 결합 확률 밀도 함수(joint probability density function; joint pdf)는 $(x, y)$ 지점에서의 확률 밀도 함수 $f(X, Y)$로 정의합니다.
결합 확률밀도함수 역시 확률밀도함수와 유사한 성질을 지녀야합니다.
1). 모든 $x$, $y$에 대해서 $f(x, y) \ge 0$
2). 전체 확률 변수에 대한 확률 합은 1이여야 합니다. 이를 이중적분으로 표현할 수 있습니다.
$$\int_{c}^{d} \int_{a}^{b} f(x, y) \; dxdy = 1$$
동일한 이야기지만 $f(x, y)$ 자체로는 확률이 아니기 때문에 1보다 클 수도 있습니다.
1.3. 사건(Events)
초반에 단일 확률변수의 사건에 대해서 언급할 때 확률변수는 사건을 설명하는 데 있어 좋은 도구라고 언급하였습니다. 다시 한번 사건과 확률변수의 정의에 대해서 생각해보죠. 사건은 결과의 집합이고 확률변수는 사건에서 각각의 결과에 확률을 부여한 것입니다. 예를 들어 $X > 1$이라는 뜻은 $X$가 1보다 큰 모든 결과의 집합입니다. 이 개념은 결합 확률분포로 확장할 수 있습니다.
예제2. 예제1에서의 표를 다시 생각해봅시다. 사건 $B = Y - X \ge 2$를 집합으로 표현하고 그 확률을 계산하겠습니다.
사건 $B$를 집합으로 표현하면 $\{(1, 3), (1, 4), (1, 5), (1, 6), (2, 4), (2, 5), (2, 6), (3, 5), (3, 6), (4, 6)\}$입니다.
그리고 예제1의 표에 사건 $B$를 포함시켜 다시 그려보겠습니다.
$X$, $Y$ | 1 | 2 | 3 | 4 | 5 | 6 |
1 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
2 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
3 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
4 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
5 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
6 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ |
따라서 사건 $B$가 일어날 확률 $P(B)$는 $\frac{10}{36}$임을 알 수 있습니다.
다음으로 연속확률변수에 대한 예제입니다.
예제3. 연속확률변수 $X$와 $Y$ 둘 다 $[0, 1]$에서 균등 분포를 따른다고 가정하겠습니다. 즉 $X \sim {\sf U}(0, 1)$, $Y \sim {\sf U}(0, 1)$입니다. 이때 $X > Y$인 사건을 시각화해보겠습니다.
$X$와 $Y$ 둘 다 균등 분포를 따르고 있기 때문에 가로 세로의 길이가 1인 정사각형 영역을 가지게 됩니다. 여기서 $X > Y$인 사건은 $X = Y$를 그래프로 그렸을 때 아래의 영역에 위치하는 영역이 됩니다.
1.4. 결합 누적 분포 함수(joint cumulative distribution function)
그 다음으로 누적 분포 함수입니다. 이 역시 단일 확률 변수의 정의를 확장하여 적용할 수 있습니다.
$X$와 $Y$를 확률 변수라고 했을 때, 결합 누적 분포 함수(joint cumulative distribution function; joint cdf)는 $F(x, y) = P(X \le x, Y \le y)$로 정의합니다.
- 연속확률변수 : 만약 $X$와 $Y$가 둘다 연속확률변수라면 결합 누적분포함수는 $[a, b] \times [c, d]$에서 밀도 함수 $f(x, y)$로 정의될 것입니다.
$$F(x, y)=P(X \le x, Y \le y)=\int_{c}^{y} \int_{a}^{x} f(x, y) \; dxdy$$
기억나시는 지 모르겠지만 연속확률변수의 누적분포함수의 성질 중 하나는 미분하게 되면 확률밀도함수를 얻을 수 있다는 것입니다. 이는 결합 누적분포에서도 동일하게 적용할 수 있습니다. 다만, 적분을 각 확률변수에 대해서 두 번하기 때문에 미분도 각 확률변수에 대해서 두 번 합니다.
$$f(x, y)=\frac{\partial^{2} F}{\partial x \partial y} (x, y)$$
- 이산확률변수 : 만약 $X$와 $Y$가 둘다 이산확률변수라면 결합 누적분포함수는 결합 확률밀도함수 $p(x_{i}, y_{j})$에 대해서 아래와 같이 정의됩니다.
$$F(x, y)=P(X \le x, Y \le y)=\sum_{x_{i} \le x} \sum_{y_{j} \le y} p(x_{i}, y_{j})$$
1.5. 결합 누적분포함수의 성질
단일 누적분포함수의 성질과 동일하지만 다른 점은 2차원으로 확장되었다는 점이니 간단하게 이해할 수 있습니다.
1. $F(x, y)$는 단조 증가함수입니다. 즉, $x$나 $y$가 증가하면 $F(x, y)$는 반드시 증가하거나 이전의 값을 유지해야합니다.
2. $F(x, y)=0$은 결합된 범위에서 왼쪽 아래 점에서 성립합니다.
3. $F(x, y)=1$은 결합된 범위에서 오른쪽 위 점에서 성립합니다.
1.6. 주변분포
$X$와 $Y$가 결합확률분포를 만족할 때 $X$나 $Y$만의 분포를 알고 싶을 때가 있습니다. 이 경우 주변분포(marginal pmf, pdf)가 유용한 도구입니다. 이 역시 이산확률변수와 연속확률변수일 때를 나누어 확인합니다. 주변분포는 설명보다 예시를 들면 훨씬 이해가 빠릅니다.
- 결합 확률질량함수의 주변분포
예제 1을 한번 더 우려먹겠습니다.
$X$, $Y$ | 1 | 2 | 3 | 4 | 5 | 6 | $p(x_{i})$ |
1 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
2 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
3 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
4 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
5 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
6 | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{36}$ | $\frac{1}{6}$ |
$p(y_{j})$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $1$ |
위의 표에서 새로운 행과 열로 각각 $p(y_{j})$와 $p(x_{i})$가 생긴것을 볼 수 있습니다. 이것이 주변확률분포입니다. 말그대로 결합확률분포 '주변'에 붙어있습니다. 열에는 $X$의 주변확률분포가, 행에는 $Y$의 주변확률분포가 있으니 헷갈리지 않도록 주의하시길 바랍니다.
이를 정의하면 $p_{X}(x_{i})=\sum_{j} p(x_{i}, y_{j})$이고 $p_{Y}(y_{j})=\sum_{i} p(x_{i}, y_{j})$입니다.
- 결합 확률밀도함수의 주변분포
일단 확률밀도함수의 경우 확률질량함수와 유사하게 정의합니다.
확률밀도함수 $f(x, y)$가 $[a, b] \times [c, d]$에서 정의되면 주변분포의 정의는 아래와 같습니다.
$$f_{X}(x)=\int_{c}^{d} f(x, y) \; dy$$
$$f_{Y}(y)=\int_{a}^{b} f(x, y) \; dx$$
확률밀도함수나 확률질량함수나 동일한 점은 $X$의 주변분포를 얻기 위해서는 $Y$에 대해서 적분하거나 더하고 $Y$의 주변분포를 얻기 위해서는 $X$에 대해서 적분하거나 더해야한다는 점입니다.
예제3. $(X, Y)$가 $[0, 1] \times [1, 2]$에서 $f(x, y)=\frac{8}{3}x^{3}y$로 정의된다고 했을 때 $f_{X}(x)$, $f_{Y}(y)$를 구해봅시다.
$$f_{X}(x)=\int_{1}^{2} \frac{8}{3}x^{3}y \; dy=\left. \frac{4}{3}x^{3}y^{2} \right|_{1}^{2}=4x^{3}$$
$$f_{Y}(y)=\int_{0}^{1} \frac{8}{3}x^{3}y \; dx=\left. \frac{2}{3}x^{4}y \right|_{0}^{1}=\frac{2}{3}y$$
이제 저희가 알아낼 수 있는 것은 각각의 확률변수의 분포가 아닌 결합 확률분포로 주어졌다고 하더라도 주변분포를 얻어내서 단일 확률변수에 대한 확률을 구할 수 있다는 점입니다.
예제4. $(X, Y)$가 $[0, 1] \times [0, 1]$에서 $f(x, y)=\frac{3}{2}(x^{2} + y^{2})$로 정의된다고 했을 때 $f_{X}(x)$와 $P(X < 0.5)$를 구해보겠습니다.
먼저 $X$에 대한 주변분포를 계산합니다.
$$f_{X}(x)=\int_{0}^{1} \frac{3}{2} (x^{2} + y^{2}) \; dy=\left. \frac{3}{2}x^{2}y + \frac{1}{2} y^{3} \right|_{0}^{1}=\frac{3}{2} x^{2} + \frac{1}{2}$$
얻은 주변분포를 통해 확률을 계산합니다.
$$P(X < 0.5)=\int_{0}^{0.5} f_{X}(x) \; dx=\int_{0}^{0.5} \frac{3}{2} x^{2} + \frac{1}{2} \; dx=\left. \frac{1}{2}x^{3} + \frac{1}{2}x \right|_{0}^{0.5}=\frac{5}{16}$$
- 주변분포의 누적분포
결합분포로부터 주변분포의 누적분포를 얻어내는 것은 간단한 작업입니다.
$X$와 $Y$가 $[a, b] \times [c, d]$에서 결합분포로 이루어져 있을 때 $F_{X}(x)=F(x, d)$이고 $F_{Y}(y)=F(b, y)$입니다.
2. 독립(Independence)
독립 역시 조건부 확률에 대해서 이야기할 때 언급된 주제입니다. 확률에서 $P(A \cap B)=P(A)P(B)$이면 사건 $A$와 사건 $B$이 독립이라고 말하였습니다. 확률 변수 간의 독립 역시 비슷하게 정의됩니다.
결합 누적분포 $F(X, Y)=F_{X}(x)F_{Y}(y)$이면 확률 변수 $X$와 $Y$는 서로 독립이라고 합니다.
- 이산확률변수 : $p(x_{i}, y_{j})=p(x_{i})p(y_{j})$
이산확률변수의 독립 조건은 모든 주변분포에 대응되는 확률의 곱이 결합분포와 동일해야합니다.
예제 1의 주변확률분포와 결합확률분포를 보면 주변확률분포의 각 확률은 모두 $\frac{1}{6}$입니다. 그리고 결합확률분포의 각 확률은 모두 $\frac{1}{36}$이죠. 모든 결합확률분포에서 $p(x_{i}, y_{j})=p(x_{i})p(y_{j})$를 성립하는 것을 볼 수 있습니다. 따라서 이 경우 독립입니다.
- 연속확률변수 : $f(x, y)=f_{X}(x)f_{Y}(y)$
연속확률변수의 독립 조건은 이산확률변수보다는 간단하게 확인할 수 있습니다.
예를 들어 확률 변수 $X$는 범위가 $[0, \frac{1}{2}]$이고 $Y$는 범위가 $[0, 1]$일 때 $f(x, y)=96x^{3}y^{2}$이라고 가정하겠습니다. 이때 주변분포는 $f_{X}(x)=24x^{2}$, $f_{Y}(y)=4y^{3}$입니다. 결과적으로 $f(x, y)=96x^{3}y^{2}=f_{X}(x)f_{Y}(y)$이므로 두 확률 변수 $X$, $Y$는 서로 독립입니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[15].통계 소개 (0) | 2020.03.29 |
---|---|
기초통계학[14].공분산과 상관계수 (0) | 2020.03.27 |
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
기초통계학[11].중심극한정리와 큰 수의 법칙 (0) | 2020.03.19 |
기초통계학[10].연속확률변수의 기댓값, 분산, 표준편차 그리고 분위수 (0) | 2020.03.18 |