지난 포스팅에서는 교차 엔트로피, 결합 엔트로피, 조건 엔트로피, 퍼플렉시티와 같은 기존 엔트로피의 확장된 개념에 대해서 알아보았습니다. 교차 엔트로피는 두 분포 $p$와 $q$ 사이의 차이를 측정하며 딥 러닝 분류 문제에서 손실함수로 널리 쓰입니다. 결합 엔트로피는 두 확률변수의 불확실성을 함께 측정하는 지표로 독립일 때는 합으로 상관성이 있으면 더 작아진다는 성질을 보여주었습니다. 조건부 엔트로피는 $X$를 관측한 뒤 남는 $Y$의 불확실성을 나타내며 평균적으로 관측을 통해 불확실성이 줄어든다는 점을 강조하였습니다. 마지막으로 퍼플렉시티는 $2^{\mathbb{H}(p)}$로 정의되며 예측의 난이도를 직관적으로 표현하는 척도로 특히 언어 모델의 품질 평가에서 자주 사용됩니다. 1. 연속 확률변수의 ..
이전 포스팅에서 저희는 이산 확률변수의 엔트로피에 대해서 다루어보았습니다. 이는 불확실성 (또는 정보량)의 척도로 분포가 균등할 수록 엔트로피가 최대가 되고 하나의 상태에만 몰려 있으며 0이 됩니다. 예를 들어 $K$개의 상태를 가진 균등 분포에서는 엔트로피는 $\mathbb{H}(X) = \log_{2} K$가 됩니다. 이항변수의 경우에는 $- [\theta \log_{2} \theta + (1 - \theta) \log_{2} (1 - \theta) ]$로 표현되는 이항 엔트로피 함수가 등장합니다. 1. 교차 엔트로피(Cross Entropy)지금까지는 단일 분포에서의 엔트로피를 고려하였지만 서로 다른 두 분포 사이의 엔트로피를 구하는 방법도 있습니다. 이것이 바로 교차 엔트로피(Cross Entro..
저희는 이전 포스팅까지 빈도주의적 가설검정을 중심으로, 가능도비 검정과 제1·2종 오류 및 Neyman–Pearson 보조정리를 살펴보고, NHST와 p-값의 정의와 활용을 정리한 뒤, p-값이 자주 잘못 해석되며 실제로는 귀무가설 사후확률과 큰 차이가 날 수 있다는 문제를 다루었습니다. 이어서 왜 모두가 베이지안을 택하지 않는지에 대한 역사적 및 실무적 이유를 검토하였습니다. 결론적으로 원칙적으로는 베이지안 추론이 합리적이지만 실제 적용에서는 데이터와 상황에 맞게 보정된 절차를 병행하는 것이 바람직하다는 점을 확인하였습니다. 1. 엔트로피(Entropy)이번 포스팅부터는 정보 이론 분야의 몇 가지 중요한 기본 개념을 소개하고자 합니다. 확률분포의 엔트로피(entropy)는 주어진 분포에서 추출된 확률..