지난 포스팅에서 저희는 $p$-값이 종종 잘못 해석되어 값이 작으면 곧바로 귀무가설이 틀리고 대립가설이 맞다고 여겨지지만 이는 논리적 오류에 가깝다는 것을 예시로 확인하였습니다. 예를 들어 “미국인이라면 대체로 의원이 아니다 → 의원이면 미국인이 아니다”라는 잘못된 귀납적 추론과 비슷하죠. 올바른 해석을 위해서는 베이즈 정리를 통해 $p(H_{0} \mid \mathcal{D})$를 계산해야하며 단순히 $p$-값으로 결론을 내리는 것은 위험합니다. 이와 같이 빈도주의 원리에 기반한 추론은 때때로 직관에 반하는 여러 형태의 행동을 보일 수도 있으며 이는 상식적 추론과 모순되기도 합니다. 이러한 문제의 근본적인 원인은 빈도주의적 추론이 우도 원리(likelihood principle)을 위반하기 때문이죠...
$p$값은 흔히 귀무가설 하에서 데이터가 나올 가능성으로 해석합니다. 따라서, $p$-값이 작으면 $H_{0}$는 그럴듯하지 않고 따라서 $H_{1}$이 그럴듯하다고 해석됩니다. 추론 과정은 다음과 같죠. STEP1. 만약 귀무가설 $H_{0}$이 참이라면 이 검정통계량은 아마도 나오지 않을 것이다.STEP2. 하지만 이 검정통계량이 실제로 나와버렸다. STEP3. 그러므로 $H_{0}$는 그럴듯하지 않으므로 이 데이터에 대해서는 대립가설 $H_{1}$가 더 그럴듯하다. 하지만, 이것은 잘못된 추론 방법일 수 있습니다. 간단한 예시를 생각해보겠습니다. "만약 어떤 사람이 미국인이라면 그는 아마도 의회의원이 아닐것이다. 이 사람은 의회 의원이다. 따라서, 그는 아마도 미국인이 아닐 것이다." 엥? 뭔가..
지금까지 다른 의사결정의 이론적 접근법에서는 $p(\mathcal{D} \mid H_{0})$와 $p(\mathcal{D} \mid H_{1})$을 계산할 수 있도록 귀무가설 $H_{0}$와 대립가설 $H_{1}$을 모두 명시해야했습니다. 그러나 어떤 경우에는 대립가설을 명확히 정의하기 어렵고 단순히 귀무가설이 데이터에 비추어 "그럴듯한지"를 검정하고 싶은 경우가 많습니다. 예를 들어서 귀무가설 $H_{0}$를 "동전은 공정하다"라고 한다면 앞면이 나올 확률은 $p = 0.5$로 지정하는 것과 동일합니다. 그에 반해 대립가설 $H_{1}$은 "동전이 치우쳐져있다"라고 한다면 앞면이 더 잘나오는 지 또는 뒷면이 더 잘나오는 지 특정하기 어렵습니다. 이 경우에는 "$p = 0.5$"라는 가설이 맞는지만 보고..
지난 포스팅에서도 설명드렸다싶이 가설검정이라는 것은 일종의 이진 분류 문제로 해석할 수 있습니다. 그리고 일반적으로 발생할 수 있는 오류에는 두 가지가 있습니다. 먼저 위양성(False Positive) 또는 제1종 오류(Type I Error)는 귀무가설이 참일 때 대립가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 1 \mid H = 0)$인 경우이죠. 반대로 위음성(False Negative) 또는 제2종 오류(Type II Error)는 대립가설이 참일 때 귀무가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 0 \mid H = 1)$인 경우이죠. 1. 제1종 오류(Type I Error) 제1종 오류율 $\alpha$는 검정의 유의 수준(signi..
이번 포스팅부터는 주어진 데이터셋 $\mathcal{D}$를 바탕으로 어떤 가설(모형 및 모델)이 그럴듯한지에 대한 여부를 판단하는 방법인 가능도 비 검정(Likelihood Ratio Test; LRT)에 대해서 알아보도록 하겠습니다. 어떤 모형이 주어진 데이터를 잘 설명하는지 여부를 판단할 때 항상 "무엇과 비교해서"라는 질문을 던지는 것이 유용합니다. 딥 러닝에서만 예시를 들어봐도 어떤 모델 또는 알고리즘을 제안할 때 비교군들과 제안된 방법론 간의 비교를 통해서 하듯이 말이죠. 이를 빈도주의론적 관점에서 해석할 때는 두 가지 가설을 고려합니다. 이를 각각 귀무가설 $H_{0}$와 대립가설 $H_{1}$이 있다고 가정하고 어떤 쪽이 더 그럴듯한지를 선택하고자 합니다. 이는 $H \in \{ 0, 1..
지난 포스팅에서 보았던 교차검증은 일반화 오차를 추정하는 데 강력한 도구로 활용할 수 있지만 단점은 느리다는 점 입니다. 왜냐하면 모델을 여러 번 학습시켜야하기 때문이죠. 그래서 더 빠른 대안으로 모집단 리스크를 직접 근사하거나 상계(Upper Bound)를 구하는 방법이 연구됩니다. 이것이 바로 통계적 학습 이론(Statistical Learning Theory; SLT)의 핵심입니다. SLT의 목적은 일반화 오차에 대한 확률적 상계를 구하는 것 입니다. 즉, 어떤 확률로 "경험적 위험을 최소화한 가설이 모집단에서도 낮은 위험을 가진다"는 보장을 주는 것이죠. 이렇게 하면 데이터에 대해 ERM을 적용했을 때 그 결과가 실제 분포에서도 잘 작동할 것이라고 수학적으로 신뢰할 수 있게 됩니다. 이진 분류기..
지도 학습에서 가장 중요한 과제 중 하나는 훈련된 모델이 새로운 데이터에서는 잘 작동하는 가 입니다. 이를 위해 저희는 지난 포스팅에서 보았던 모집단 리스크(population risk)를 추정해야하지만 실제 데이터 분포를 알 수 없기 때문에 보통은 데이터를 나누는 방식으로 추정하게 됩니다. 먼저 데이터를 훈련 데이터와 검증 데이터로 나눕니다. 모델은 훈련 데이터를 이용해서 학습하고 검증 데이터에서 성능을 평가합니다. 이를 식으로 쓰면 다음과 같습니다. $$R_{\lambda}(\theta, \mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{(x, y) \in \mathcal{D}} l(y, f(x; \theta)) + \lambda C(\theta)$$ 여기서 $\hat..
통계학에서는 추정량을 비교할 때 리스크라는 기준을 채택합니다. 만약, 한 추정량 $\delta_{1}$이 모든 $\theta$에 대해 항상 $\delta_{2}$ 보다 리스크가 작거나 같다면 우리는 $\delta_{1}$이 $\delta_{2}$를 지배(dominate)한다고 합니다. 그리고 어떤 추정량도 자신을 엄격히 지배하지 못한다면 그 추정량을 허용(admissible)하다고 합니다. 이 개념은 단순히 "완전히 뒤처지지 않는 추정량" 정도로 이해할 수 있습니다. 저명한 통계학자인 Wald(1947)은 모든 허용 추정량이 어떤 형태로든 베이지안 의사결정 규칙과 연결된다는 것을 증명하기도 하였습니다. 예를 들어, 평균을 추정할 때 표본 중앙값은 표본 평균보다 항상 리스크가 크기 때문에 허용이 아닙니다..