지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 7)에서는 충분통계량 (Sufficient Statistics)에 대해서 설명하였습니다. 오늘은 Fano의 부등식 (Fano's Inequality)에 알아보도록 하겠습니다. 특징 선택에서 흔히 쓰이는 방법 중 하나는 입력 특징 $X_{d}$ 중에서 응답변수 (예측) $Y$와의 상호정보량 $\mathbb{I}(X; Y)$가 큰 것들을 고르는 것입니다. 이번 포스팅에서는 이러한 직관적인 이해를 보다 엄밀하게 증명해보는 시간을 가져보겠습니다. 이 과정에서 쓰이는 것이 바로 Fano의 부등식 (Fano's Inequality)으로 어떤 분류 방법을 쓰든 오분류 확률을 "특징 $X..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 6)에서는 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 알아보았습니다. 오늘은 이전에 잠깐 설명만 했던 충분통계량 (Sufficient Statistics)에 대해서 간단하게 한번 더 말씀드리도록 하겠습니다. 이전 포스팅의 데이터 처리 부등식의 중요한 결과를 생각해보도록 하겠습니다. 연쇄 마르코프 체인 $\theta \rightarrow \mathcal{D} \rightarrow s(\mathcal{D})$가 존재한다고 가정할 때 $\mathbb{I}(\theta; s(\mathcal{D})) \le \..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 5)에서는 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 설명해보도록 하겠습니다. 어떤 미지의 변수 $X$가 있고 저희는 그에 대한 잡음 섞인 관측값 $Y$를 본다고 가정하겠습니다. 이제 이 잡음이 섞인 관측값 $Y$를 어떤 방식으로든 가공(processing)헤서 새로운 변수 $Z$를 만들면 직관적으로 $X$에 대해 알고 있는 정보가 더 늘..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 4)에서는 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 간단하게 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보도록 하겠습니다. 상호정보량을 0 ~ 1 사이의 값으로 정규화한 의존성 측정치가 있다면 여러 응용분야에서 유용하게 활용할 수 있습니다. 하지만, 실수 데이터에 대해 이를 안정적으로 계산하는 것은 까다로울 수 있습니다. 이를 위한 방법으로 제안된 것이 바로 최대정보계수 (Maximal Inf..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 3)에서는 상호정보량과 상관계수 사이의 관계성에 대해서 간단하게 알아보았습니다. 오늘은 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 알아보도록 하겠습니다. 어떤 응용에서는 두 변수의 의존성을 0과 1 사이로 정규화한 측정값이 있다면 유용합니다. 저희는 이전 포스팅에서 다음과 같은 결론을 얻었었습니다. $$\begin{cases} \mathbb{I}(X; Y) &= \mathbb{H}(X) - \mathbb{H}(X \mid Y) \le \mathbb{H}(X) \\ \mathbb{I}(X; Y) &= \mathbb{H}(..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 2)에서는 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보았습니다. 오늘은 상호정보량과 상관계수 사이의 관계성에 대해서 더 자세하게 알아보도록 하겠습니다. $(x, y)$가 결합 가우시안 (joint Gaussian)이라고 가정하면 다음과 같이 쓸 수 있습니다. $$\begin{pmatrix} x \\ y \end{pmatrix} \sim \mathcal{N} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \sigma^{2}..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 1)에서는 상호정보량에 대해서 알아보았습니다. 이를 이해하는 방법으로 서로의 독립성을 가정했을 때와 가정하지 않았을 때의 결합분포들의 차이를 계산하는 방식을 설명드렸습니다. 즉, KL 발산의 응용으로 볼 수 있으며 KL 발산이 가지고 있는 가장 중요한 특성인 0보다 크거나 같다는 특성이 상호정보량에도 그대로 적용됩니다. 오늘은 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보도록 하겠습니다. 조건부 상호정보량은 다음과 같이 정의됩니다. $$\mathbb{I}(X; Y \mid Z) = \m..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 4)에서는 forward KL과 reverse KL 사이의 차이점에 대해서 알아보았습니다. 주제를 조금 바꾸어 상호 정보량 (Mutual Information)에 대해서 더 자세히 알아보도록 하겠습니다. KL 발산은 두 분포가 얼마나 비슷한 지 측정하는 도구 중에 하나로 유사성에 초점을 맞춘 방식이였죠. 그렇다면 두 확률변수 $X$와 $Y$가 얼마나 의존하는 지는 어떤 방식으로 측정할 수 있을까요? 한 가지 아이디어는 질문을 이렇게 바꾸는 것 입니다. 둘이 얼마나 의존적인가? $\Rightarrow$ 둘의 분포가 서로 독립일 때의 분포와 얼마나 큰..