안녕하세요. 오늘은 드디어 지난 시간의 마지막 확률 포스팅이였던 기초통계학[14].공분산과 상관계수(https://everyday-image-processing.tistory.com/25)를 끝내고 본격적으로 통계를 시작하기 전에 간단한 소개를 하고 넘어가도록 하겠습니다.
통계학은 기본적으로 데이터를 주로 다룹니다. 좀 더 자세하게 이야기하면 얻은 데이터를 바탕으로 의미있는 '추론'을 하는 것이 목표입니다. 이 과정은 크게 3가지로 나눌 수 있습니다.(1). 데이터 수집, 2). 데이터 설명, 3). 데이터 분석) 즉, 어떤 것이 진짜 인지에 대한 '가설(hypothesis)'를 세우고 실험을 통한 데이터 수집, 수집된 데이터 설명, 마지막으로 데이터를 분석한 뒤 이전에 세운 가설에 대한 믿음의 정도를 결과로부터 추론하게 됩니다.
1). 데이터 수집
데이터를 잘 수집하려면 실험의 설계가 중요합니다. 통계학이나 머신러닝와 같이 데이터를 다루는 학문에서 다들 말하는 것은 'Garbage In Garbage Out(GIGO)'입니다. 즉 데이터가 좋지 않으면 당연히 좋지 않은 결과가 나온다는 뜻으로 데이터의 중요성을 강조하고 있습니다. 따라서 실험의 설계를 잘못하면 좋지 않은 데이터를 얻을 것이고 유요한 추론을 얻어내는 것이 불가능할 수도 있습니다.
2). 데이터 설명
머신러닝을 경험해보신 분들은 알겠지만 데이터를 얻을 때 엄청나게 큰 배열, csv 파일, 데이터베이스 등의 형태로 원시 데이터(raw data)를 얻게 됩니다. 이러한 데이터들은 처음 보면 굉장히 낯설게 느껴지지만 먼저 평균, 중간값, 중앙값, 분위수와 같은 요약 통계량을 얻어 분석해볼 수 있습니다. 요약 통계량뿐만 아니라 히스토그램, 산점도, cdf와 같은 그래프를 통해서도 데이터의 특성을 확인해볼 수 있습니다. 히스토그램의 경우 왼쪽이나 오른쪽으로 얼마나 치우쳤는 지 시각화할 수 있을 것이고 산점도의 경우 두 데이터간 선형성을 얼마나 갖는 지 유추할 수 있을 것입니다. 이러한 분석을 통해 정규분포와 같이 이전에 알고 있던 확률 분포를 따르는 지도 알 수 있을 것입니다.
3). 통계적 추론
최종적인 목표입니다. 만약 저희가 가설을 '데이터의 분포가 정규분포를 따를 것이다.'를 세울 수 있고 이를 데이터를 바탕으로 얼마나 따르는 지 확인할 수 있습니다. 이후에 포스팅에서는 이 통계적 추론을 중심으로 전개하게 됩니다.
'수학 > 기초통계학' 카테고리의 다른 글
기초통계학[17].베이즈 추론 1 - 이산 사전 확률을 가지는 경우에 대하여 (0) | 2020.04.03 |
---|---|
기초통계학[16].최대 우도 추정법 (0) | 2020.03.31 |
기초통계학[14].공분산과 상관계수 (0) | 2020.03.27 |
기초통계학[13].결합확률분포, 독립성 (1) | 2020.03.26 |
기초통계학[12].밀도 히스토그램, Chebyshev 부등식 (0) | 2020.03.21 |