pml intro

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 1)

통계학에서 의사결정을 할 때 베이지안과 빈도주의 접근방식이 존재합니다. 지금까지는 베이지안 접근법에 집중하였고 오늘은 빈도주의 의사결정에 대해서 설명해보도록 하겠습니다. 이전 포스팅에서 빈도주의 관점의 사고방식에 대해서 간단하게 살펴보기는 하였습니다. 약간 리마인드 차원에서 복습을 해보도록 하겠습니다. 일반적으로 $\theta$는 모르는 값으로 고정된 하나의 값이지만 그거를 알 수는 없다고 가정합니다. 그리고 데이터 $x$는 무작위로 샘플링되며 이로 인해 매번 달라질 수 있습니다. 따라서, 한 번의 데이터로만 판단하지 않고 여러 번 데이터가 뽑힌다고 가정해서 평균적인 손실 또는 리스크를 계산합니다. 여기서 리스크를 정의하는 방법이 중요합니다. 어떤 추정 방법 $\delta$를 사용한다고 가정했을 때 ..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 6)

전통적인 베이즈 기반의 가설검정은 귀무가설 $H_{0}$과 대립가설 $H_{1}$을 세우고 베이즈 요소(Bayes Factor) $\frac{p(\mathcal{D} \mid H_{0})}{p(\mathcal{D} \mid H_{1})}$을 계산해 모델을 비교하게 됩니다. 하지만, 이 방식은 주변우도 계산이 복잡하고 사전 확률분포 선택에 민감하다는 문제점이 있습니다. 또한, 실질적으로는 효과가 0인지 아닌지 보다는 효과 크기(effect size) 자체를 추정하는 데 더 큰 관심이 있습니다. 예를 들어, 두 모델의 성능 차이가 0.1%라도 통계적으로 유의할 수는 있지만 그게 실질적으로 의미 있는 차이일까요? 이런 경우에는 단순히 $p(\Delta > 0 \mid \mathcal{D})$ 대신 의미 있는..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 5)

앞서 본 베이지안 기반의 모델 선택에서는 주변우도 $p(\mathcal{D} \mid m) = \int p(\mathcal{D} \mid \theta, m) p(\theta \mid m) \; d\theta$를 계산해야만 했습니다. 하지만, 일반적으로 이는 파라미터 전체 공간에 대한 적분을 수행해야하기 때문에 계산이 어려우며 파라미터에 대한 사전 확률분포에 따라서 민감하게 달라지는 문제가 있습니다. 이를 대체하기 위해 정보 기준(Information Criteria)라는 계산이 훨씬 단순한 모델 선택 지표를 사용할 수 있습니다. 정보 기준의 공통적인 구조는 다음과 같습니다. $$\mathcal{L}(m) = -\log p(\mathcal{D} \mid \hat{\theta}, m) + C(m)$$ 여..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 4)

지난 포스팅까지 저희는 이미 주변우도가 "적절한 복잡도"의 모델을 선택하는 데 도음이 된다는 사실을 확인하였습니다. 그렇다면 베이지안 방식이 아닐 때는 어떤 식으로 모델을 선택하는 게 좋을까요? 이를 위해 주로 사용되는 기법이 바로 교차검증(cross-validation), 특히 K-fold나 Leave-One-Out(LOO-CV)를 자주 사용합니다. 정말 재미있는 사실은 주변우도는 사실 LOO-CV와 매우 밀접한 관련이 있습니다. 모델 $m$에 대한 주변우도는 다음과 같이 순차적인 형태로 작성할 수 있습니다. $$p(\mathcal{D} \mid m) = \prod_{n = 1}^{N} p(y_{n} \mid y_{1:n - 1}, x_{1:N}, m) = \prod_{n = 1}^{N} p(y_{..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 3)

두 모델 $m_{1}$과 $m_{2}$가 있다고 가정하겠습니다. 여기서 $m_{1}$은 단순한 모델이고 $m_{2}$는 $m_{1}$보다는 더 복잡한 모델입니다. 두 모델 모두 적절한 파라미터 $\hat{\theta}_{1}$과 $\hat{\theta}_{2}$를 찾으면 데이터에 잘 맞는다고 가정하겠습니다. 즉, $p(\mathcal{D} \mid \hat{\theta}_{1}, m_{1})$과 $p(\mathcal{D} \mid \hat{\theta}_{2}, m_{2})$ 모두 크다고 가정하는 것이죠. 이 경우 단순한 모델인 $m_{1}$을 선택하는 것이 직관적으로 옳은 선택입니다. 이 원칙을 오컴의 면도날(Occam's razor)라고 부르죠. 즉, “같은 설명력을 가진다면 더 단순한 모델을 선택하..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 2)

이번에는 두 개 이상의 모델이 포함된 집합 $\mathcal{M}$ 중에서 어떤 모델이 가장 그럴듯한 선택인지 다루어보도록 하겠습니다. 이 과정으로 모델 선택(Model Selection)이라고 부릅니다. 이를 의사결정 관점에서 해석해본다면 우리가 해야 할 행동은 여러 모델들 중 하나를 선택하는 것이죠, 즉, $m \in \mathcal{M}$을 선택하는 문제라고 볼 수 있습니다. 여기서는 0-1 손실을 사용했을 때의 최적 선택을 알아보도록 하겠습니다. 이 경우에는 확률이 가장 높은 모델을 고르는 것이 최적의 전략입니다. $$\hat{m} = \text{argmax}_{m \in \mathcal{M}} p(m \mid \mathcal{D})$$ 여기서 $p(m \mid \mathcal{D})$는 사후..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 1)

이번에는 여러 개의 파라미터를 가진 모델에 중에서 "올바른" 모델을 선택하고자 할 때의 설정을 다루어보도록 하겠습니다. 일단, "올바른" 모델이란 무엇일까요? 아마도 이는 상황과 목적에 따라 그 정의가 달라질 수 있습니다. 베이지안 결정이론은 이를 명확하게 정해줍니다. 두 개의 가설(일반적으로 모델을 지칭), 즉 귀무가설(null hypothesis) $M_{0}$과 대립가설(alternative hypothesis) $M_{1}$이 있고 그중 어느 쪽이 더 그럴듯한지 알고 싶다고 가정하겠습니다. 이를 가설검정(hypothesis testing)이라고 합니다. 지난 포스팅에서 보았던 0-1 손실을 쓴다고 가정하겠습니다. 최적 의사결정은 $p(M_{1} \mid \mathcal{D}) > p(M_{0}..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec5.1 Bayesian Decision Theory - 5)

지금까지 저희는 가능한 행동 집합 $\mathcal{A}$와 자연 상태 $\mathcal{H}$가 유한한 경우를 다루었습니다. 즉, 분류 문제였죠. 그렇다면 행동과 상태가 모두 연속이면 무한한 경우인 $\mathcal{A} = \mathcal{H} = \mathbb{R}$인 경우를 다루어보도록 하겠습니다. 일반적으로 이를 회귀(regression)이라고 합니다. 오늘은 특히, 이 상황에서 흔히 쓰이는 여러가지 손실 함수들에 대해서 다루어볼 예정입니다. 이렇게 정의된 손실함수를 기반으로한 의사 결정 규칙은 추정모델이 최적 매개변수를 구하거나 로봇이 취할 최적의 행동을 결정하는 데 활용될 수 있습니다. 각 손실함수에 대한 그림은 위 그림 5.3 을 참고해주세요. 1. L2 손실(L2 Loss)연속적인 상태..

Johns Hohns
'pml intro' 태그의 글 목록 (4 Page)