pml intro

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 4)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 3)에서는 KL 발산를 최소화하는 것과 MLE는 사실 상 동일하다는 것을 간단한 방식으로 증명해보았습니다. 오늘은 forward KL과 backward KL에 대해서 알아보도록 하겠습니다. 시작하기에 앞서 왜 forward와 reverse KL의 개념이 생겼는지부터 이해해보겠습니다. KL 발산은 두 분포 사이의 차이를 측정해주는 도구로 널리 사용되기는 하지만 "거리(metric)"이라고는 볼 수 없습니다. 왜냐하면 $\mathcal{D}_{\mathbb{KL}} (p || q) \neq \mathcal{D}_{\mathbb{KL}}(q || p)$이..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 3)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 2)에서는 KL 발산의 가장 중요한 성질로 항상 0보다 크거나 같다는 것을 증명하였습니다. 또한, KL 발산이 0이 되기 위해서는 두 분포가 동일해야함도 함께 보였죠. 오늘은 아주 초반에 배웠던 MLE와 KL 발산 사이의 관계성에 대해서 알아보도록 하겠습니다. 저희의 목표를 진짜 분포 $p$가 있다고 가정했을 때 여기에 가장 가까운 분포 $q$를 KL 발산으로 측정하여 찾고 싶다고 두겠습니다. 이러한 목표를 수식으로 적으면 $q^{*} = \text{argmin}_{q} \mathcal{D}_{\mathbb{KL}}(p || q)$가 되죠. 이제 KL..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 2)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 1)에서는 분포 사이의 차이를 측정하는 방법 중 하나인 KL 발산의 정의와 예시에 대해서 알아보았습니다. 오늘 포스팅에서는 KL 발산의 중요한 성질로 KL 발산이 항상 0 이상임을 증명해보도록 하겠습니다. 이를 위해 저희는 옌센 부등식(Jensen's Inequality)를 사용해야합니다. 옌센 부등식은 임의의 볼록함수 $f$에 대해 다음을 만족하는 것을 의미합니다. $$f \left( \sum_{i = 1}^{n} \lambda_{i} x_{i} \right) \le \sum_{i = 1}^{n} \lambda_{i} f(x_{i}) \Right..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 1)

지난 포스팅 [PML intro] Ch6 Information Theory (Sec.6.1 Entropy - 3) 에서 저희는 연속 확률변수의 미분 엔트로피를 다루었습니다. 이산의 경우와 달리 음수가 될 수도 있으며 균등분포나 가우시안 분포와 같은 예시를 통해 간단한 계산 과정도 확인하였습니다. 특히, 가우시안은 분산이 커질수록 엔트로피가 증가하지만 혼합분포와 같은 복잡한 분포의 경우 분산이 커진다고 해서 엔트로피가 반드시 증가하는 것은 아니라는 사실을 확인하였습니다.1. 상대 엔트로피(Relative entropy)두 분포 $p$와 $q$가 주어졌을 때, 이들이 얼마나 더 가깝거나 혹은 유사한지를 측정하는 거리 척도를 정의하는 것은 딥 러닝이나 머신러닝에서 자주 사용됩니다. 실제로 저희는 더 일반적으로..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.1 Entropy - 3)

지난 포스팅에서는 교차 엔트로피, 결합 엔트로피, 조건 엔트로피, 퍼플렉시티와 같은 기존 엔트로피의 확장된 개념에 대해서 알아보았습니다. 교차 엔트로피는 두 분포 $p$와 $q$ 사이의 차이를 측정하며 딥 러닝 분류 문제에서 손실함수로 널리 쓰입니다. 결합 엔트로피는 두 확률변수의 불확실성을 함께 측정하는 지표로 독립일 때는 합으로 상관성이 있으면 더 작아진다는 성질을 보여주었습니다. 조건부 엔트로피는 $X$를 관측한 뒤 남는 $Y$의 불확실성을 나타내며 평균적으로 관측을 통해 불확실성이 줄어든다는 점을 강조하였습니다. 마지막으로 퍼플렉시티는 $2^{\mathbb{H}(p)}$로 정의되며 예측의 난이도를 직관적으로 표현하는 척도로 특히 언어 모델의 품질 평가에서 자주 사용됩니다. 1. 연속 확률변수의 ..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.1 Entropy - 2)

이전 포스팅에서 저희는 이산 확률변수의 엔트로피에 대해서 다루어보았습니다. 이는 불확실성 (또는 정보량)의 척도로 분포가 균등할 수록 엔트로피가 최대가 되고 하나의 상태에만 몰려 있으며 0이 됩니다. 예를 들어 $K$개의 상태를 가진 균등 분포에서는 엔트로피는 $\mathbb{H}(X) = \log_{2} K$가 됩니다. 이항변수의 경우에는 $- [\theta \log_{2} \theta + (1 - \theta) \log_{2} (1 - \theta) ]$로 표현되는 이항 엔트로피 함수가 등장합니다. 1. 교차 엔트로피(Cross Entropy)지금까지는 단일 분포에서의 엔트로피를 고려하였지만 서로 다른 두 분포 사이의 엔트로피를 구하는 방법도 있습니다. 이것이 바로 교차 엔트로피(Cross Entro..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.1 Entropy - 1)

저희는 이전 포스팅까지 빈도주의적 가설검정을 중심으로, 가능도비 검정과 제1·2종 오류 및 Neyman–Pearson 보조정리를 살펴보고, NHST와 p-값의 정의와 활용을 정리한 뒤, p-값이 자주 잘못 해석되며 실제로는 귀무가설 사후확률과 큰 차이가 날 수 있다는 문제를 다루었습니다. 이어서 왜 모두가 베이지안을 택하지 않는지에 대한 역사적 및 실무적 이유를 검토하였습니다. 결론적으로 원칙적으로는 베이지안 추론이 합리적이지만 실제 적용에서는 데이터와 상황에 맞게 보정된 절차를 병행하는 것이 바람직하다는 점을 확인하였습니다. 1. 엔트로피(Entropy)이번 포스팅부터는 정보 이론 분야의 몇 가지 중요한 기본 개념을 소개하고자 합니다. 확률분포의 엔트로피(entropy)는 주어진 분포에서 추출된 확률..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 5)

지난 포스팅에서 저희는 $p$-값이 종종 잘못 해석되어 값이 작으면 곧바로 귀무가설이 틀리고 대립가설이 맞다고 여겨지지만 이는 논리적 오류에 가깝다는 것을 예시로 확인하였습니다. 예를 들어 “미국인이라면 대체로 의원이 아니다 → 의원이면 미국인이 아니다”라는 잘못된 귀납적 추론과 비슷하죠. 올바른 해석을 위해서는 베이즈 정리를 통해 $p(H_{0} \mid \mathcal{D})$를 계산해야하며 단순히 $p$-값으로 결론을 내리는 것은 위험합니다. 이와 같이 빈도주의 원리에 기반한 추론은 때때로 직관에 반하는 여러 형태의 행동을 보일 수도 있으며 이는 상식적 추론과 모순되기도 합니다. 이러한 문제의 근본적인 원인은 빈도주의적 추론이 우도 원리(likelihood principle)을 위반하기 때문이죠...

Johns Hohns
'pml intro' 태그의 글 목록 (2 Page)