pml intro

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 4)

$p$값은 흔히 귀무가설 하에서 데이터가 나올 가능성으로 해석합니다. 따라서, $p$-값이 작으면 $H_{0}$는 그럴듯하지 않고 따라서 $H_{1}$이 그럴듯하다고 해석됩니다. 추론 과정은 다음과 같죠. STEP1. 만약 귀무가설 $H_{0}$이 참이라면 이 검정통계량은 아마도 나오지 않을 것이다.STEP2. 하지만 이 검정통계량이 실제로 나와버렸다. STEP3. 그러므로 $H_{0}$는 그럴듯하지 않으므로 이 데이터에 대해서는 대립가설 $H_{1}$가 더 그럴듯하다. 하지만, 이것은 잘못된 추론 방법일 수 있습니다. 간단한 예시를 생각해보겠습니다. "만약 어떤 사람이 미국인이라면 그는 아마도 의회의원이 아닐것이다. 이 사람은 의회 의원이다. 따라서, 그는 아마도 미국인이 아닐 것이다." 엥? 뭔가..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 3)

지금까지 다른 의사결정의 이론적 접근법에서는 $p(\mathcal{D} \mid H_{0})$와 $p(\mathcal{D} \mid H_{1})$을 계산할 수 있도록 귀무가설 $H_{0}$와 대립가설 $H_{1}$을 모두 명시해야했습니다. 그러나 어떤 경우에는 대립가설을 명확히 정의하기 어렵고 단순히 귀무가설이 데이터에 비추어 "그럴듯한지"를 검정하고 싶은 경우가 많습니다. 예를 들어서 귀무가설 $H_{0}$를 "동전은 공정하다"라고 한다면 앞면이 나올 확률은 $p = 0.5$로 지정하는 것과 동일합니다. 그에 반해 대립가설 $H_{1}$은 "동전이 치우쳐져있다"라고 한다면 앞면이 더 잘나오는 지 또는 뒷면이 더 잘나오는 지 특정하기 어렵습니다. 이 경우에는 "$p = 0.5$"라는 가설이 맞는지만 보고..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 2)

지난 포스팅에서도 설명드렸다싶이 가설검정이라는 것은 일종의 이진 분류 문제로 해석할 수 있습니다. 그리고 일반적으로 발생할 수 있는 오류에는 두 가지가 있습니다. 먼저 위양성(False Positive) 또는 제1종 오류(Type I Error)는 귀무가설이 참일 때 대립가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 1 \mid H = 0)$인 경우이죠. 반대로 위음성(False Negative) 또는 제2종 오류(Type II Error)는 대립가설이 참일 때 귀무가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 0 \mid H = 1)$인 경우이죠. 1. 제1종 오류(Type I Error) 제1종 오류율 $\alpha$는 검정의 유의 수준(signi..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 1)

이번 포스팅부터는 주어진 데이터셋 $\mathcal{D}$를 바탕으로 어떤 가설(모형 및 모델)이 그럴듯한지에 대한 여부를 판단하는 방법인 가능도 비 검정(Likelihood Ratio Test; LRT)에 대해서 알아보도록 하겠습니다. 어떤 모형이 주어진 데이터를 잘 설명하는지 여부를 판단할 때 항상 "무엇과 비교해서"라는 질문을 던지는 것이 유용합니다. 딥 러닝에서만 예시를 들어봐도 어떤 모델 또는 알고리즘을 제안할 때 비교군들과 제안된 방법론 간의 비교를 통해서 하듯이 말이죠. 이를 빈도주의론적 관점에서 해석할 때는 두 가지 가설을 고려합니다. 이를 각각 귀무가설 $H_{0}$와 대립가설 $H_{1}$이 있다고 가정하고 어떤 쪽이 더 그럴듯한지를 선택하고자 합니다. 이는 $H \in \{ 0, 1..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 3)

지난 포스팅에서 보았던 교차검증은 일반화 오차를 추정하는 데 강력한 도구로 활용할 수 있지만 단점은 느리다는 점 입니다. 왜냐하면 모델을 여러 번 학습시켜야하기 때문이죠. 그래서 더 빠른 대안으로 모집단 리스크를 직접 근사하거나 상계(Upper Bound)를 구하는 방법이 연구됩니다. 이것이 바로 통계적 학습 이론(Statistical Learning Theory; SLT)의 핵심입니다. SLT의 목적은 일반화 오차에 대한 확률적 상계를 구하는 것 입니다. 즉, 어떤 확률로 "경험적 위험을 최소화한 가설이 모집단에서도 낮은 위험을 가진다"는 보장을 주는 것이죠. 이렇게 하면 데이터에 대해 ERM을 적용했을 때 그 결과가 실제 분포에서도 잘 작동할 것이라고 수학적으로 신뢰할 수 있게 됩니다. 이진 분류기..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 2)

지도 학습에서 가장 중요한 과제 중 하나는 훈련된 모델이 새로운 데이터에서는 잘 작동하는 가 입니다. 이를 위해 저희는 지난 포스팅에서 보았던 모집단 리스크(population risk)를 추정해야하지만 실제 데이터 분포를 알 수 없기 때문에 보통은 데이터를 나누는 방식으로 추정하게 됩니다. 먼저 데이터를 훈련 데이터와 검증 데이터로 나눕니다. 모델은 훈련 데이터를 이용해서 학습하고 검증 데이터에서 성능을 평가합니다. 이를 식으로 쓰면 다음과 같습니다. $$R_{\lambda}(\theta, \mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{(x, y) \in \mathcal{D}} l(y, f(x; \theta)) + \lambda C(\theta)$$ 여기서 $\hat..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 3)

통계학에서는 추정량을 비교할 때 리스크라는 기준을 채택합니다. 만약, 한 추정량 $\delta_{1}$이 모든 $\theta$에 대해 항상 $\delta_{2}$ 보다 리스크가 작거나 같다면 우리는 $\delta_{1}$이 $\delta_{2}$를 지배(dominate)한다고 합니다. 그리고 어떤 추정량도 자신을 엄격히 지배하지 못한다면 그 추정량을 허용(admissible)하다고 합니다. 이 개념은 단순히 "완전히 뒤처지지 않는 추정량" 정도로 이해할 수 있습니다. 저명한 통계학자인 Wald(1947)은 모든 허용 추정량이 어떤 형태로든 베이지안 의사결정 규칙과 연결된다는 것을 증명하기도 하였습니다. 예를 들어, 평균을 추정할 때 표본 중앙값은 표본 평균보다 항상 리스크가 크기 때문에 허용이 아닙니다..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 2)

통계학에서 일치성(Consistency)는 중요한 추정량의 성질입니다. 기본적인 정의는 데이터셋 $x = \{ x_{n} \mid n = 1 : N\}$의 각 샘플이 어떤 실제 파라미터 $\theta^{*}$를 가지는 확률분포 $x_{n} \sim p(x \mid \theta^{*})$에서 샘플링되고 각각 I.I.D 가정을 따른다고 하겠습니다. 그러면 추정량 $\delta: \mathcal{X}^{N} \rightarrow \Theta$가 일치 추정량(consistent estimator)라는 것은 $N \rightarrow \infty$가 될 수록 $\hat{\theta}(x) \rightarrow \theta^{*}$가 되는 것입니다. 즉, 데이터가 무한히 많아 질수록 추정값이 실제 참파라미터 $\t..

Johns Hohns
'pml intro' 태그의 글 목록 (3 Page)