안녕하세요. 오늘부터 시간이 날 때마다 가장 기초적인 확률과 통계와 관련되서 포스팅할 예정입니다.
비록 제가 통계학과는 아니지만, 혼자서 독학한 내용을 바탕으로 정리할 생각입니다. 따라서 언제든지 틀린내용은 댓글로 남겨주시길 바랍니다.
1. 확률 VS 통계
먼저 확률과 통계의 개념부터 짚고 넘어가겠습니다.
확률(Probabiliy) : 어떤 사건이 발생할 가능성에 대한 수치적 표현
통계(Statistic) : 현상을 보다 이해하기 쉽게 하기 위한 일정체계에 의한 수치적 표현
글로만 보면 이해가 잘 되지 않습니다. 좀 더 상세한 예시를 통해 설명해보죠(확률/통계는 예시로 설명하는 경우가 편합니다.)
확률을 예시로 생각해보면 앞면과 뒷면이 나올 확률이 동일한 동전이 있다고 가정하겠습니다.(즉, Head = Tail = 0.5) 그렇다면 이러한 동전을 100번 던졌을 때, 그 중에 60번이상이 앞면이 나올 확률을 계산하는 것이 되겠습니다.(정답은 이후에 이항분포를 통해 계산하여 0.0284가 나오게 됩니다.)
이제 통계를 예시로 생각을 해보죠.
이번에는 앞면과 뒷면이 나올 확률을 모르는 동전이 있다고 가정하겠습니다. 그리고 100번의 실험을 통해서 60번의 앞면이 나왔다고 가정하겠습니다. 그렇다면 이 동전은 공평한지, 공평하지 않은지를 추론할 수 있습니다.
통계의 예시를 보면 알겠지만 데이터가 있을 때(예시에서는 100번의 실험을 통한 60번의 앞면), 어떤 결론을 내는 것이 목표임을 알 수 있습니다.(예시에서는 동전이 공평한지, 공평하지 않은지)
앞의 2가지 예시를 보면 확실히 확률적 관점과 통계적 관점은 서로 다르다는 것을 알 수 있습니다.
2. 빈도론적 해석 VS 베이지안 해석
통계에서는 크게 빈도론적 해석과 베이지안 해석으로 나누어 관점을 볼 수 있습니다. 두 관점의 시작은 확률을 바라보는 시각 자체가 서로 다르다는 것입니다.
빈도론적 해석에서 확률이란 여러번의 실험을 통해 얻은 사건의 빈도입니다. 예를 들어, 동전의 앞면이 나올 확률이 50%라고 가정하면 빈도론적 해석으로는 100번, 1000번, 10000번, 또는 이상 던졌을 때 그 중에서 절반은 앞면이 나온다라고 보게 됩니다.
베이지안 해석에서 확률은 빈도론적 해석의 확률보다 더 추상적인 개념으로 주어진 데이터를 토대로 어떤 가설에 대한 믿음의 정도라고 볼 수 있습니다. 예를 들어, 현재 주어진 데이터가 앞면이 3번, 뒷면이 2번이 나왔다고 가정하겠습니다. 이때, 가설을 H라고 하면 H = '앞면이 나올 확률은 0.6이다.'라고 생각할 수 있습니다. 실제로 현재 얻은 데이터를 기준에서 보면 5번 중 3번이 앞면이 나왔으므로 0.6으로 가설을 세운 것이 합리적이라고 볼 수도 있을 것입니다. 그렇다면 저 가설이 데이터를 바탕으로 했을 때 얼마나 믿을 수 있는 지를 수치화한 것이 베이지안 해석에서의 확률입니다.
빈도론적 해석과 베이지안 해석을 비교해보면 빈도론적 해석이 훨씬 직관적이고 쉬운 것을 볼 수 있습니다. 하지만 현재 머신러닝에서는 베이지안 해석을 응용하여 만들어낸 알고리즘이 굉장히 많기 때문에 이해하고 넘어가는 것이 꼭 필수입니다.
이 2가지 해석은 이후에 좀 더 자세하게 다룰 예정입니다.
기초통계학[1].경우의 수와기 집합(https://everyday-image-processing.tistory.com/6)
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[5]. 이산확률변수의 기댓값 (0) | 2020.03.12 |
---|---|
기초통계학[4].이산확률변수 (0) | 2020.03.08 |
기초통계학[3].조건부 확률, 독립, 베이지안 법칙 (0) | 2020.03.07 |
기초통계학[2].확률 기초 (0) | 2020.03.05 |
기초통계학[1].경우의 수와 집합 (0) | 2020.03.03 |