안녕하세요. 지난 포스팅 기초통계학[28].귀무가설의 유의성 검정 1에서는 NHST와 관련된 몇 가지 정의들을 활용해서 현실 문제에 통계학적인 언어로 쓸 수 있는 방법에 대해서 알아보았습니다. 오늘은 이에 이어서 좀 더 이론적인 배경에 대해서 설명하도록 하겠습니다. 저희가 귀무가설을 정의하게 되면 귀무가설에 맞다고 했을 때 정의되는 귀무분포를 얻을 수 있다는 것에서 시작합니다. 일반적으로 그 귀무분포는 정확하게(specific) 얻을 수 있는 경우는 많이 없습니다. 하지만 바로 이전 포스팅에서와 같이 간단한 귀무가설을 정하게 되면 이항분포를 통해서 정확하게 구할 수 있었습니다. 이와같이 가설에 대한 분포를 정확하게 구할 수 있는 가설을 "간단한 가설(simple hypothesis)" 이라고 합니다. 그..
안녕하세요. 지난 포스팅의 기초통계학[27].빈도론자 관점의 통계학에서는 앞으로 진행할 빈도론자 관점의 통계학과 확률의 의미에 대해서 알아보았습니다. 오늘은 본격적으로 빈도론자들이 어떤식으로 통계를 활용하는 지 알아보는 시간을 가지도록 하겠습니다. 그 중에서도 가장 유명한 귀무가설의 유의성 검정(Null Hypothesis Significance Testing)을 알아보도록 하겠습니다. 너무 이름이 기니까 영어이름을 따서 NHST라고 부르도록 하겠습니다!!! 사실 이러한 가설 검정 기법에는 많은 방법이 있다고 합니다. 하지만 저희는 많은 방법들 중에서 네이만-피어슨 패러다임(Neyman-Pearson Paradigm)을 사용할 예정입니다. 또한 네이만-피어슨 패러다임이 가장 많이 활용되는 가설 검정 기법..
안녕하세요. 오늘은 아나콘다를 설치를 한 뒤 환경설정을 하는 법에 대해서 알아보도록 하겠습니다. 기본적으로 아나콘다를 설치하게 되면 "base" 라는 가상환경이 자동으로 생성되고 아나콘다에 접속할 때 마다 해당 가상환경으로 먼저 들어가게 됩니다. 하지만 때때로 원하는 작업 마다 가상환경을 만들고 싶을 때가 있습니다. 예를 들어서 작업 A는 GUI를 만드는 환경이 필요하고, 작업 B는 딥 러닝을 위해서 텐서플로우나 파이토치 환경이 필요할 수도 있을 것입니다. 이러한 두 개의 서로 다른 작업을 같은 작업에 사용하게 되면 환경이 난잡해지겠죠. 그래서 이렇게 완전히 성격이 다른 작업 2개를 서로 다른 환경 A, 환경 B에서 작업해야하는 필요성이 생기게 된것이죠!!! 그렇게 나온 것이 가상환경이라고 생각하시면 될..
안녕하세요. 지난 포스팅의 기초통계학[26].예측 구간에서는 사전 확률분포를 모를 때 합리적인 사전 확률분포를 선택하는 방법에 대해서 알아보았습니다. 물론 이는 굉장히 주관적인 내용을 담고 있기 때문에 개개인이 서로 다른 사전 확률분포를 선택할 수도 있다라는 것을 언급하였습니다. 지금까지는 베이지안 관점의 통계학을 알아보았습니다. 오늘부터는 빈도론자(Frequentist) 관점의 통계학을 알아보도록 하겠습니다. 사실 고등학교에서 배우는 통계학은 제가 기억하기로는 빈도론자 관점의 통계학일 것입니다. 대표적인 예시로 신뢰 구간, $p$ 값, $t$ 검정, $\chi^{2}$ 검정입니다. 하지만, 최근의 머신러닝에서는 고속 컴퓨팅에 있어서 베이지안 관점의 통계학을 적용하는 것이 일반화되고 있습니다. 오늘은 두..
안녕하세요. 오늘은 지난 포스팅에서는 윈도우 환경에서 아나콘다를 설치하는 방법에 대해서 알아봤습니다. 오늘은 리눅스 기반인 우분투 환경에서 아나콘다를 설치하는 방법에 대해서 알아보도록 하겠습니다. 사실 우분투로 설치하는 것은 터미널 명령어 몇 가지만 숙지하고 있으면 쉽게 설치할 수 있기 때문에 우분투를 다루는 것이 처음이 아니라면 윈도우에 비해서 더 쉽게 설치할 수 있을 것입니다. 하지만 우분투를 처음 접해보시는 분들은 조금 어려울 수도 있을테니 천천히 보면서 알아보도록 하겠습니다. 지난 포스팅에서 아나콘다에 대한 간단한 설명은 하였으므로 링크로 남기고 바로 설치를 해보도록 하겠습니다. 먼저 아나콘다 공식 홈페이지에 들어가서 "Download"를 선택합니다. 물론 구글에 아나콘다라고 치면 공식 사이트가 ..
안녕하세요. 지난 시간의 기초통계학[25].공액 사전 확률분포 선택에 이어서 오늘은 예측 구간에 대해서 알아보도록 하겠습니다. pmf $p(\theta)$와 pdf $f(\theta)$가 있다고 가정하겠습니다. 이때 각각의 $p(\theta)$, $f(\theta)$는 알지못하는 모수(unknown parameter) $\theta$에 대한 신뢰 정보를 표현한다고 가정하겠습니다. 그러면 $\theta$에 대한 $p$ 예측 구간(probability interval)은 $P(a \le \theta \le b) = p$인 구간 $[a, b]$로 정의됩니다. 예측 구간에 대한 자세한 설명은 위키피디아 문서를 참조해주시길 바랍니다. 이때, 이산 확률변수와 연속 확률변수에 대해서 비슷하지만 확률이 다르게 정의되기..
안녕하세요. 이번 포스티에서는 파이썬 공부를 위해서 자주 사용되는 아나콘다(Anaconda)를 설치하는 방법에 대해서 알아보도록 하겠습니다. 여기서 아나콘다를 설치하는 방법은 설치 환경에 따라서 다릅니다. 저는 Windows를 기준으로 설치하는 방법에 대해서 알려드리도록 하겠습니다. 먼저 아나콘다는 파이썬에서 사용되는 1,400개 이상의 패키지와 데이터 과학 패키지들이 포함되어 있는 편리한 도구 입니다. 원래는 파이썬을 설치한 뒤에 여러 패키지를 추가적으로 설치해야하지만 아나콘다를 한번만 설치하면 모든 패키지들이 자동으로 설치되기 때문에 매우 편리하죠. 하지만 단점은 설치 시간이 좀 걸리고 용량이 크다는 것입니다. 대안으로 원하는 패키지만 그때그때 설치가능한 미니콘다(miniconda)도 있습니다. 하지..
안녕하세요. 그 동안 시험 기간과 여러가지 일이 겹쳐서 포스팅을 하지 못했습니다. 시험 기간도 조만간 끝나고 머리도 좀 식힐 겸 쉬운 내용을 포스팅하도록 하겠습니다. 지난 시간에는 기초통계학[24].공액 사전 확률분포 2에서 정규분포의 사전 확률분포가 자기 자신임을 증명하여 정규 분포는 공액 사전 확률분포임을 확인하였습니다. 그리고 기초통계학[23].공액 사전 확률분포 1에서는 베타 분포의 사전 확률분포가 자기 자신임을 증명하여 베타 분포는 공액 사전 확률분포임을 확인하였습니다. 그리고 기초통계학[22].베이즈 추론 5, 기초통계학[20].베이즈 추론 4에서는 사전 확률분포가 미리 주어진 상태에서 베이즈 추론을 진행하였습니다. 사전 확률분포가 미리 주어진다는 것은 저희가 이미 어떤 도메인 지식을 알고 있..