안녕하세요. 오늘은 지난 시간의 기초통계학[15].통계 소개(https://everyday-image-processing.tistory.com/28)에 이어서 본격적으로 통계를 배워보도록 하겠습니다. 그 첫걸음으로 최대 우도 추정법(Maximum Likelihood Estimates; MLE)에 대해서 알아보겠습니다.
본격적으로 시작하기 전에 최대 우도 추정이란 것이 필요한 이유에 대해서 알아보도록 하겠습니다. 기본적으로 통계는 데이터를 다루는 학문이라고 했기 때문에 저희에게 $n$개의 데이터 $x_{1}, x_{2}, ..., x_{n}$가 있다고 가정하겠습니다. 그리고 이 데이터들이 지수분포(exponential distribution)을 따르는 실험을 한 것을 알고 있다고 가정하겠습니다. 와~ 그럼 저희는 저 데이터들을 그대로 지수분포의 특성에 맞게 사용하면 되겠네요. 그런데 의문이 한가지 듭니다. 과연 어떤 지수분포에서 온걸까요?
지수분포의 식을 다시 한번 떠올려봅시다. $X \sim {\sf exp}(\gamma)$라면 $f(x) = \gamma e^{-\gamma x}$라고 하였습니다. 이때 $\gamma$의 범위는 $[0, \infty)$입니다. 위의 가정에 의해서 저희는 $x$는 알고 있습니다. 하지만 어느 지수분포를 따르는 지는 모릅니다. 여기서 지수분포를 특정할 수 있는 값은 바로 $\gamma$입니다. 하지만 현재 $\gamma$가 어떤 값인지 모르기때문에 저희는 이 $\gamma$를 변수로서 사용할 수 있습니다. 따라서 이제 지수분포 함수는 $\gamma$에 대한 함수의 형식으로 바꿀 수 있습니다. 즉, $\gamma \in [0, \infty)$에서 $f_{\gamma}(x) = \gamma e^{-\gamma x}$입니다. $\gamma$의 값에 따라서 다양한 지수분포가 나오게 되는 데 이 분포들의 집합을 족(family)라고 합니다.
이와 비슷하게 이항 분포의 경우 $n$, $p$에 따라서 변하고, 정규 분포의 경우 $\mu$, $\sigma$에 따라 분포가 변합니다. 이처럼 매개변수에 따라서 분포의 모양이 달라지는 분포를 매개변수 분포(parametric distribution)이라고 합니다.
이제 다시 처음으로 질문으로 돌아가서 어느 분포에서 왔는 지 특정할 수 있는 합리적인 방법은 어떤 것 일까요? 바로 현재 주어진 데이터들을 바탕으로 파라미터에 대한 확률을 계산합니다. 즉, 파라미터는 분포를 특정하는 요소이기때문에 파라미터에 대한 확률을 계산하는 것은 측정된 데이터가 어느 모형에서 왔을 확률이 가장 높은지와 동일합니다.
이를 위해서 저희는 최대 우도 추정법을 통해 파라미터에 대한 확률을 계산하고자 하는 것이죠.
1. 최대 우도 추정법(Maximum Likelihood Estimates; MLE)
측정된 데이터를 기반으로 모르는 파라미터를 추정하는 방법은 많습니다. 하지만 저희는 그 중에서 MLE를 알아보도록 하겠습니다. MLE의 기본 아이디어는 위에서 설명한 그대로 입니다.
"어느 파라미터 값이 관측된 데이터에 대해서 가장 높은 확률을 가지는 가?"
MLE의 장점은 2가지 입니다. 먼저, 계산이 쉽습니다. 나중에 예제를 통해 보겠지만 간단한 미분을 통해서 쉽게 구할 수 있습니다. 그리고 직관적입니다. 방금 설명했듯이 머리에 잘들어온다는 뜻입니다.
근데 여기서 모르는 단어가 있습니다. 최대도 알겠고 추정도 알겠는데 우도(Likelihood)는 무슨 뜻 일까요?
우도는 조건부확률을 사용하여 $P(data|p)$로 정의됩니다. $data$는 지금까지 관측된 데이터, $p$는 모르는 파라미터 입니다. 해석해보면 $p$가 주어졌을 때 $data$가 나올 확률입니다. 어차피 $data$는 정해져 있고 $p$에 값에 따라서 변하는 확률임을 알 수 있습니다. 따라서 $P(data|p)$를 $p$에 대한 함수로 사용할 수 있겠죠? 따라서 우도 함수(Likelihood function)이라고도 합니다. 이 개념은 다음에 베이지안에서도 활용되니 중요한 개념입니다.
드디어 MLE를 설명하기위한 기초단계는 끝났습니다. MLE를 정의하면 데이터가 주어졌을 때 파라미터 $p$에 대한 MLE는 우도 $P(data|p)$를 최대화(maximize)하는 파라미터 $\hat{p}$입니다. 결국 MLE는 데이터가 왔을 가능성이 가장 높은 파라미터 $p$를 의미합니다.
이제 예제를 통해 실제로 어떻게 푸는 지 알아보겠습니다.
예제1. 동전을 100번 던졌을 때 앞면이 55번 나온 경우 앞면이 나올 확률 $p$에 대한 MLE를 구하시오.
여기서 주의깊게 봐야할 곳은 동전을 100번 던진것입니다. 이산확률분포에서 설명했다싶이 각 동전 던지기는 베르누이 시행을 의미하고 여러번 던지는 것은 베르누이 시행의 단순 덧셈, 즉 이항분포를 따른다고 하였습니다. 그렇다면 단순하게 앞면이 55번 나오는 확률을 어떻게 계산할 수 있을 까요? 이항분포 식을 사용하면 $P(55\ heads) = \binom{100}{55}p^{55}(1 - p)^{45}$가 됨을 알 수 있습니다. 이 확률은 현재 $p$가 정해지지 않았기 때문에 $p$에 의존한다고 볼 수 있습니다. 따라서 우도 $P(55\ heads|p) = \binom{100}{55}p^{55}(1-p)^{45}$로 쓸 수 있습니다.
이제 파라미터 $\hat{p}$를 얻어야 합니다. 이 $\hat{p}$는 우도 함수를 최대화하는 값이기 때문에 양변을 $p$에 대해서 미분을 하고 0이 되는 값을 찾으면 됩니다.
$$\frac{d}{dp}P(data|p) = \binom{100}{55}(55p^{54}(1 - p)^{45} - 45p^{55}(1 - p)^{44}) = 0$$
$$\Rightarrow 55p^{54}(1 - p)^{45} = 45p^{55}(1 - p)^{44}$$
$$\Rightarrow 55(1 - p) = 45p$$
$$\Rightarrow 100p = 55$$
$$\Rightarrow p = 0.55$$
이므로 $\hat{p}=0.55$임을 얻을 수 있습니다.
1.1. 로그 우도(log likelihood)
방금 예제를 계산을 해보았지만 계산이 약간 복잡할 수 있습니다. 이 계산을 간단하게 만들 수 있는 도구가 로그 우도입니다. 로그의 성질 중 하나인 곱셈을 덧셈으로 바꾸는 성질을 활용하는 것입니다. 단순히 우도 식의 양변에 자연로그를 취하면 얻을 수 있습니다. 로그 우도를 통해서 예제1을 다시 풀어보겠습니다.
$$ln{P(55\ heads|p)} = \ln{\binom{100}{55}} + 55\ln{p} + 45\ln{1 - p}$$
로그 우도의 좋은 점은 그냥 우도의 MLE와 로그 우도의 MLE와 값이 동일하다는 점입니다.
$$\Rightarrow \frac{d}{dp}(log\ likelihood) = \frac{d}{dp} [\ln{\binom{100}{55}} + 55\ln{p} + 45\ln{1 - p}] = 0$$
$$\Rightarrow \frac{55}{p} - \frac{45}{1 - p} = 0$$
$$\Rightarrow 55(1 - p) = 45p$$
$$\Rightarrow p = 0.55$$
이므로 $\hat{p} = 0.55$로 그냥 우도의 MLE와 값이 동일한 것을 볼 수 있습니다.
1.2. 연속확률분포에서의 최대우도추정법
연속확률분포에 대해서도 사실 이산확률분포와 동일하게 MLE를 정의할 수 있습니다. 아래의 예제들을 통해 확인해보겠습니다.
예제2. 어떤 전구의 수명이 지수분포를 따른다고 알려져있다고 가정하겠습니다. 물론 지수분포의 파라미터인 $\gamma$는 알 수 없습니다. 5개의 전구에 대해서 수명을 알아본 결과 각각 2, 3, 1, 3, 4년의 수명을 가지는 것을 알 수 있었습니다. 그렇다면 $\gamma$의 MLE 값을 구하시오.(각각의 전구의 수명은 서로 독립적입니다.)
확률변수 $X_{i}$를 $i$번째 전구의 수명이라고 하고 $x_{i}$를 $X_{i}$에서 가져온 값이라고 하면 각각의 전구의 수명이 지수분포를 따른다고 하였으므로 $f_{X_{i}}(x_{i}) = \gamma e^{-\gamma x}$임을 알 수 있습니다. 가정에서 각각의 전구의 수명이 전부 독립적이라고 하였으므로 아래와 같이 쓸 수 있습니다.
$$f(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}|\gamma) = f(x_{1}|\gamma)f(x_{2}|\gamma)f(x_{3}|\gamma)f(x_{4}|\gamma)f(x_{5}|\gamma)$$
$$\Rightarrow (\gamma e^{-\gamma x_{1}})(\gamma e^{-\gamma x_{2}})(\gamma e^{-\gamma x_{3}})(\gamma e^{-\gamma x_{4}})(\gamma e^{-\gamma x_{5}})$$
$$\Rightarrow \gamma^{5} e^{-\gamma (x_{1} + x_{2} + x_{3} + x_{4} + x_{5})}$$
여기서 문제의 가정에서 각 전구의 수명을 측정했을 때 데이터가 $x_{1} = 2, x_{2} = 3, x_{3} = 1, x_{4} = 3, x_{4} = 4$를 얻었으므로 위의 마지막 식에서 $f(2, 3, 1, 3, 4|\gamma) = \gamma^{5} e^{-13\gamma}$를 얻고 여기에 양변에 자연로그를 취하면 $\ln{f(2, 3, 1, 3, 4|\gamma)} = 5\ln{\gamma} - 13\gamma$를 얻을 수 있습니다.
이제 양변 $\gamma$에 대한 미분을 하게 되면 $\frac{d}{d\gamma} (log\ likelihood) = \frac{5}{\gamma} - 13 = 0$이므로 $\hat{\gamma} = \frac{5}{13}$이 됩니다.
이 예제의 결과에서 재밌는 점은 MLE를 보면 $\frac{5}{13}$인데 이는 $\frac{number\ of\ bulbs}{x_{1} + x_{2} + x_{3} + x_{4} + x_{5}}$입니다. 이를 직관적으로 생각해보면 주어진 데이터들은 MLE를 통해서 $X \sim e^{\hat{\gamma} x}$를 따르게 됩니다. 이때 주어진 데이터의 기댓값은 $E(X) = \frac{1}{\hat{\gamma}} = \frac{5}{13} = \bar{x}$임을 알 수 있습니다. 여기서 $\bar{x}$는 측정된 데이터입니다.
이를 통해서 다중 파라미터를 갖는 분포에 대한 MLE를 어떻게 구해야하는 지 알 수 있습니다. 다음 예제를 통해서 확인해보겠습니다.
예제3. 측정된 데이터 $x_{1}, x_{2}, \dots, x_{n}$이 $N(\mu, \sigma^{2})$을 따른다고 했을 때 $(\mu, \sigma^{2})$의 MLE를 구하시오.
$X_{1}, X_{2}, \dots, X_{n}$가 i.i.d 조건(각 확률변수는 동일한 분포를 따르면 서로 독립인 조곤)을 만족하면서 $N(\mu, \sigma^{2})$를 따른다고 가정하겠습니다. 여기서 $x_{i}$를 $X_{i}$에서 가져온 데이터라고 하겠습니다. 그럼 각각의 $X_{i}$에 대해서 $f_{X_{i}}(x_{i}) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i} - \mu)^{2}}{2\sigma^{2}}}$를 만족합니다.
또한 각각의 $X_{i}$가 독립이기 때문에 우도를 아래와 같이 쓸 수 있습니다.(확률변수가 i.i.d를 만족하는 것과 지수법칙을 사용하였습니다.)
$$f(x_{1}, x_{2}, \dots, x_{n}|\mu, \sigma) = (\frac{1}{\sqrt{2\pi}\sigma})^{n} e^{-\sum_{i=1}^{n} \frac{(x_{i} - \mu)}{2\sigma^{2}}}$$
아직 너무 값이 복잡해보입니다. 양변에 자연로그를 취하면 아래와 같이 쓸 수 있습니다.(로그의 성질을 사용하였습니다.)
$$\ln{f(x_{1}, x_{2}, \dots, x_{n}|\mu, \sigma)} = -n\ln{\sqrt{2\pi}} - n\ln{\sigma} - \sum_{i = 1}^{n} \frac{x_{i} - \mu}{2\sigma^{2}}$$
여기서 $\ln{f(x_{1}, x_{2}, \dots, x_{n}|\mu, \sigma)}$가 다변수 함수이기 때문에 $\mu$, $\sigma$에 대한 MLE를 얻으려면 각각에 대한 편미분을 해야 얻을 수 있습니다.
먼저 $\mu$에 대한 편미분을 합니다.
$$\frac{\partial f(x_{1}, x_{2}, \dots, x_{n}|\mu, \sigma)}{\partial \mu} = \sum_{i = 1}^{n} \frac{x_{i} - \mu}{\sigma^{2}} = 0$$
$$\Rightarrow \sum_{i = 1}^{n} x_{i} = n\mu$$
$$\Rightarrow \hat{\mu} = \frac{\sum_{i = 1}^{n} x_{i}}{n} = \bar{x}$$
이제 $\sigma$에 대한 편미분을 합니다.
$$\frac{\partial f(x_{1}, x_{2}, \dots, x_{n}|\mu, \sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \sum_{i = 1}^{n} \frac{x_{i} - \mu}{\sigma^{3}} = 0$$
$$\Rightarrow \hat{\sigma}^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - \mu)^{2}}{n}$$
위 식에서 $\hat{\mu}$는 이미 얻었습니다. 따라서 $\mu$위치에 대입하면 $\hat{\sigma}^{2}$ 역시 얻을 수 있습니다.
결과를 확인해보면 $\hat{\mu} = \bar{x}$은 현재 관측된 데이터의 평균, 즉 표본 평균입니다. $\hat{\sigma}^{2} = \sum_{i = 1}^{n} \frac{1}{n}(x_{i} - \bar{x})^{2}$은 현재 관측된 데이터의 분산, 즉 표본 분산임을 알 수 있습니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[18].베이즈 추론 2 - 확률론적 예측 (0) | 2020.04.06 |
---|---|
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |
기초통계학[15].통계 소개 (0) | 2020.03.29 |
기초통계학[14].공분산과 상관계수 (0) | 2020.03.27 |
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |