안녕하세요. 오늘은 지난 시간의 기초통계학[13].결합확률분포와 독립성(https://everyday-image-processing.tistory.com/23)에 이어서 공분산과 상관계수에 대해서 알아보겠습니다.
1. 공분산(Covariance)
공분산은 이전 시간의 결합확률분포에서 두 확률변수간의 관련성을 수치한 것입니다. 지난 시간에 예를 들었던 기린의 키와 무게 사이의 양의 공분산이 나온다면 서로 함께 증가하는 경향을 보인다는 것입니다. 중요한 점은 두 확률 변수간의 인과관계가 아니라 경향성만 알 수 있다는 점입니다.
두 확률변수 $X$와 $Y$가 각각 평균 $\mu_{X}$, $\mu_{Y}$를 가진다고 했을 때 $X$와 $Y$의 공분산은 $Cov(X, Y)=E((E-\mu_{X})(Y-\mu_{Y}))$ 로 정의됩니다.
1.1. 공분산의 성질
- $Cov(aX+b, cY+d)=acCov(X, Y)$
- $Cov(X_{1}+X_{2}, Y)=Cov(X_{1}, Y)+Cov(X_{2}, Y)$
- $Cov(X, X)=Var(X)$
proof) $Cov(X, Y) = E((X - \mu_{X})(X - \mu_{X}))=E((X - \mu_{X})^{2})=Var(X)$
- $Cov(X, Y)=E(XY)-\mu_{X}\mu_{Y}$
proof) $E(X - \mu_{X})=0$임을 생각해보세요.
$$Cov(X, Y) = E((X - \mu_{X})(Y - \mu_{Y}))$$
$$\Rightarrow E(XY - \mu_{X}Y - \mu_{Y}X + \mu_{X}\mu_{Y})$$
$$\Rightarrow E(XY) - \mu_{X}E(Y) - \mu_{Y}E(X) + \mu_{X}\mu_{Y}$$
$$\Rightarrow E(XY) - \mu_{X}\mu_{Y} - \mu_{Y}\mu_{X} + \mu_{X}\mu_{Y}$$
$$\Rightarrow E(XY) -\mu_{X}\mu_{Y}$$
- $Var(X+Y)=Var(X)+Var(Y)+2Cov(X, Y)$
proof) $Var(X, Y)=Cov(X+Y, X+Y)=Cov(X, X) + 2Cov(X, Y) + Cov(Y, Y) = Var(X) + Var(Y) + 2Cov(X, Y)$
- 만약 두 확률변수 $X$와 $Y$가 독립이면 $Cov(X, Y)=0$입니다.(역은 성립하지 않습니다!)
proof) 두 확률변수 $X$, $Y$가 독립이므로 $f(x, y)=f_{X}(x)f_{Y}(y)$입니다. 따라서
$$Cov(X, Y)=\int \int (x - \mu_{X})(y - \mu_{Y})f_{X}(x)f_{Y}(y) \; dxdy$$
$$\Rightarrow \int (x - \mu_{X})f_{X}(x) \; dx \int (y - \mu_{Y})f_{Y}(y) \; dy$$
$$\Rightarrow E(X - \mu_{X})E(Y - \mu_{Y})=0$$
특히, 두 확률변수 $X$와 $Y$가 독립이면 $Var(X+Y)=Var(X)+Var(Y)$임을 알고 있습니다. 그때 설명드렸다 싶이 이는 공분산의 성질에 의해 나오는 부가적인 성질입니다.
1.2. 공분산의 계산
- 이산 확률변수 : 만약 두 확률변수 $X$와 $Y$가 이산 확률변수이고 결합확률질량분포 pmf $p(x_{i}, y_{j})$를 가진다면 아래의 식으로 공분산을 계산할 수 있습니다.
$$Cov(X, Y)=\sum_{i=1}^{n}\sum_{j=1}^{m} p(x_{i}, y_{j})(x_{i}-\mu_{X})(y_{j}-\mu_{Y})=(\sum_{i=1}^{n}\sum_{j=1}^{m} p(x_{i}, y_{j})x_{i}y_{j})-\mu_{X}\mu_{Y}$$
- 연속 확률변수 : 만약 두 확률변수 $X$와 $Y$가 연속 확률변수이고 결합확률밀도분포 pdf $f(x, y)$가 $[a, b] \times [c, d]$에서 정의될 때 아래의 식으로 공분산을 계산할 수 있습니다.
$$Cov(X, Y)=\int_{c}^{d}\int_{a}^{b} (x-\mu_{X})(y-\mu_{Y})f(x, y) \; dxdy=(\int_{c}^{d}\int_{a}^{b} xyf(x, y) \; dxdy) -\mu_{x}\mu_{y}$$
예제1. 동전을 3번 던진다고 하겠습니다. 이때 $X$를 처음 2번 던졌을 때 앞면의 개수, $Y$를 마지막 2번 던졌을 때 앞면의 개수라고 하겠습니다.(2번째 시행은 겹치겠지요.) $Cov(X, Y)$를 계산해보겠습니다.
먼저 주변분포를 포함한 결합확률분포 표를 그리도록 하겠습니다.
$X$, $Y$ | 0 | 1 | 2 | $p(x_{i})$ |
0 | $\frac{1}{8}$ | $\frac{1}{8}$ | $0$ | $\frac{1}{4}$ |
1 | $\frac{1}{8}$ | $\frac{2}{8}$ | $\frac{1}{8}$ | $\frac{1}{2}$ |
2 | $0$ | $\frac{1}{8}$ | $\frac{1}{8}$ | $\frac{1}{4}$ |
$p(y_{j})$ | $\frac{1}{4}$ | $\frac{1}{2}$ | $\frac{1}{4}$ | $1$ |
- $X=0, Y=0 \rightarrow \{TTT\} \rightarrow P(X=0, Y=0)=\frac{1}{8}$
- $X=0, Y=1 \rightarrow \{TTH\} \rightarrow P(X=0, Y=1)=\frac{1}{8}$
- $X=0, Y=2 \rightarrow \{\} \rightarrow P(X=0, Y=2)=0$
- $X=1, Y=0 \rightarrow \{HTT\} \rightarrow P(X=1, Y=0)=\frac{1}{8}$
- $X=1, Y=1 \rightarrow \{HTT, HTH\} \rightarrow P(X=1, Y=1)=\frac{2}{8}$
- $X=1, Y=2 \rightarrow \{TTH\} \rightarrow P(X=1, Y=2)=\frac{1}{8}$
- $X=2, Y=0 \rightarrow \{\} \rightarrow P(X=2, Y=0)=0$
- $X=2, Y=1 \rightarrow \{HHT\} \rightarrow P(X=2, Y=1)=\frac{1}{8}$
- $X=2, Y=2 \rightarrow \{HHH\} \rightarrow P(X=2, Y=2)=\frac{1}{8}$
그리고 주변분포로부터 확률변수 $X$와 $Y$의 기댓값 $E(X)$, $E(Y)$을 계산합니다.
$$E(X)=0 \cdot \frac{1}{4} + 1 \cdot \frac{1}{2} + 2 \cdot \frac{1}{4} = 1$$
$$E(Y)=0 \cdot \frac{1}{4} + 1 \cdot \frac{1}{2} + 2 \cdot \frac{1}{4} = 1$$
이제 공분산의 정의에 따라서 계산합니다.
$$Cov(X, Y)=E((X-\mu_{X})(Y-\mu_{Y}))=\sum_{i, j} p(x_{i}, y_{j})(x_{i}-1)(y_{j}-1)$$
$$\Rightarrow Cov(X, Y)=\frac{1}{8}(0 - 1)(0 - 1) + \frac{1}{8}(2 - 1)(2 - 1) = \frac{1}{4}$$
물론, 공분산의 성질 4번을 사용해서 계산해도 됩니다. 이를 위해서 먼저 $E(XY)$를 계산합니다.
$$E(XY)=1 \cdot \frac{2}{8} + 2 \cdot \frac{1}{8} + 2 \cdot \frac{1}{8} + 4 \cdot \frac{1}{8}=\frac{5}{4}$$
$$\Rightarrow Cov(X, Y)=E(XY)-\mu_{X}\mu_{Y}=\frac{5}{4}-1=\frac{1}{4}$$
2. 상관계수(Correlation Coefficient)
공분산의 단점은 확률변수의 단위에 의존된다는 점입니다. 따라서 확률변수의 단위를 제거한 새로운 측정방법이 필요하게 됩니다. 이렇게 나온 것이 상관계수입니다.
확률변수 $X$와 $Y$의 상관계수는 $Cor(X, Y)=\rho=\frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}}$로 정의됩니다.
2.1. 상관계수의 특성
1. $\rho$는 $X$와 $Y$의 표준화시킨 공분산입니다.
2. $\rho$는 무차원(dimensionless)입니다.
3. $-1 \le \rho \le 1$입니다.
- $\rho=+1$와 $Y=aX+b, a > 0$는 동치입니다.
- $\rho=-1$와 $Y=aX+b, a < 0$는 동치입니다.
3번 특성은 상관계수가 두 확률변수간 선형성을 측정해주는 역할을 하는 것을 알려주고 있습니다.
이렇게 길고 길었던 기초 확률 부분이 끝났습니다. 다음 포스팅부터는 드디어 기초 통계 부분을 다루도록 하겠습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[16].최대 우도 추정법 (0) | 2020.03.31 |
---|---|
기초통계학[15].통계 소개 (0) | 2020.03.29 |
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |
기초통계학[11].중심극한정리와 큰 수의 법칙 (0) | 2020.03.19 |