지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 4)에서는 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 간단하게 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보도록 하겠습니다.
상호정보량을 0 ~ 1 사이의 값으로 정규화한 의존성 측정치가 있다면 여러 응용분야에서 유용하게 활용할 수 있습니다. 하지만, 실수 데이터에 대해 이를 안정적으로 계산하는 것은 까다로울 수 있습니다. 이를 위한 방법으로 제안된 것이 바로 최대정보계수 (Maximal Information Coefficient; MIC)입니다. 이는 다음과 같이 정의됩니다.
$$\text{MIC} (X, Y) = \text{max}_{G} \frac{\mathbb{I}((X, Y)|_{G})}{\log ||G||} $$
여기서 $G$는 2차원 격자 (2D grid)의 집합을 의미합니다. 따라서, $ (X, Y)|_{G} $는 $(X, Y)$ 데이터를 해당격자 위로 이산화한 것을 의미하죠. 그리고 $||G|| = \text{min}(G_{x}, G_{y})$로 $G_{x}$와 $G_{y}$는 각각 $x$ 방향과 $y$ 방향에서의 격자 칸 수를 의미합니다. 또한, 격자의 최대 해상도는 표본 크기 $n$에 따라서 제한됩니다. 이전연구에 따르면 $G_{x}G_{y} \le B(n)$을 만족하도록 격자를 제한하자고 제안하였으며 이 경우 $B(n) = n^{\alpha}$로 $\alpha = 0.6$입니다. 여기서 분모항 $\log ||G||$는 균등 결합 분포의 엔트로피에 해당하는 정규화항이기 때문에 $0 \le \text{MIC}(X, Y) \le Y$가 되도록 만듭니다.
기본적으로 통계량 MIC의 직관은 "$X$와 $Y$ 사이에 어떤 관계가 존재한다면 2차원 입력공간을 적절히 격자로 나누었을 때 그 관계를 포착하는 어떤 이산화 방식이 존재할 것이다"입니다. 하지만, 저희는 무엇이 "정답 격자"인지 모르기 때문에 MIC는 서로 다른 격자 해상도를 바꾸고 격자 경계 위치도 적절하게 바꾸어가며 MI가 가장 크게 나오는 것을 찾아야합니다.
여기서 격자 $G$만 주어지면 데이터를 그 격자 칸(bin)에 할당하여 경험적 PMF를 구성할 수 있기 때문에 MI 계산 자체는 비교적 쉬운 편입니다. 이를 보다 체계적으로 표현하기 위해 특성 행렬 (Characteristic Matrix) $M(k, l)$을 도입해보도록 하겠습니다. 이는 $(k, l)$ 크기의 격자, 즉 $k \times l$, 중에서 만들 수 있는 최대 MI를 $\log (\text{min}(k, l))$로 정규화한 값입니다. 그러면 MIC는 이 행렬의 최댓값 $\text{max}_{kl \le B(n)} M(k, l)$이 됩니다.

위 그림은 이 과정을 시각화한 그림입니다. 한편 이전 연구에서는 MIC가 공정성 (equitability)라고 불리는 성질을 보인다고 주장하였습니다. 즉, 관계의 형태가 선형/비선형/비함수적(one-to-many) 등 무엇이든 노이즈 수준이 비슷한 관계라면 MIC가 비슷한 점수를 주는 경향이 있다는 것입니다. 이는 선형 상관계수는 선형 관계에만 민감한 반면 MIC는 관계 형태에 덜 치우친 점수를 목표로 하게 됩니다.
하지만, MIC를 계산하는 것은 조금 복잡하기 때문에 더 효율적인 방식도 있습니다. MICe는 계산이 더 효율적이고 2D 격자 전부를 뒤지는 대신 1D 격자만 최적화하면 됩니다. 이는 동적 계획법 (Dynamic Programming)으로 수행되기 때문에 $\mathcal{O}(n)$에 가능해집니다. 또한, TICe (Total Information Content)라는 지표도 있습니다. 이는 작은 표본에서도 관계를 검출하는 능력은 더 높지만 공정성은 조금 더 낮으며 다음과 같이 정의됩니다.
$$\text{TICe} = \sum_{kl \le B(n)} M(k, l)$$
이들은 후보관계가 매우 많은 상황에서는 TICe로 관계후보를 걸러내고 MICe로 관계의 강도를 정량화하는 방식으로 조합하여 사용되곤 합니다.

이러한, MIC는 다음과 같이 해석될 수 있습니다. 위 그림을 참조해보면 좋을 거 같습니다.
- MIC = 0: 변수들 사이에 관계가 없다
- MIC = 1: 어떤 형태든 노이즈가 없는 완벽한 관계를 의미한다.
또한 MIC는 상관계수처럼 선형 관계만 찾는 데 제한되지 않습니다. 그래서 MIC는 “‘21세기를 위한 상관계수’(a correlation for the 21st century)”라고 불리기도 했습니다.