지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 7)에서는 충분통계량 (Sufficient Statistics)에 대해서 설명하였습니다. 오늘은 Fano의 부등식 (Fano's Inequality)에 알아보도록 하겠습니다. 특징 선택에서 흔히 쓰이는 방법 중 하나는 입력 특징 $X_{d}$ 중에서 응답변수 (예측) $Y$와의 상호정보량 $\mathbb{I}(X; Y)$가 큰 것들을 고르는 것입니다. 이번 포스팅에서는 이러한 직관적인 이해를 보다 엄밀하게 증명해보는 시간을 가져보겠습니다. 이 과정에서 쓰이는 것이 바로 Fano의 부등식 (Fano's Inequality)으로 어떤 분류 방법을 쓰든 오분류 확률을 "특징 $X..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 6)에서는 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 알아보았습니다. 오늘은 이전에 잠깐 설명만 했던 충분통계량 (Sufficient Statistics)에 대해서 간단하게 한번 더 말씀드리도록 하겠습니다. 이전 포스팅의 데이터 처리 부등식의 중요한 결과를 생각해보도록 하겠습니다. 연쇄 마르코프 체인 $\theta \rightarrow \mathcal{D} \rightarrow s(\mathcal{D})$가 존재한다고 가정할 때 $\mathbb{I}(\theta; s(\mathcal{D})) \le \..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 5)에서는 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 설명해보도록 하겠습니다. 어떤 미지의 변수 $X$가 있고 저희는 그에 대한 잡음 섞인 관측값 $Y$를 본다고 가정하겠습니다. 이제 이 잡음이 섞인 관측값 $Y$를 어떤 방식으로든 가공(processing)헤서 새로운 변수 $Z$를 만들면 직관적으로 $X$에 대해 알고 있는 정보가 더 늘..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 4)에서는 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 간단하게 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보도록 하겠습니다. 상호정보량을 0 ~ 1 사이의 값으로 정규화한 의존성 측정치가 있다면 여러 응용분야에서 유용하게 활용할 수 있습니다. 하지만, 실수 데이터에 대해 이를 안정적으로 계산하는 것은 까다로울 수 있습니다. 이를 위한 방법으로 제안된 것이 바로 최대정보계수 (Maximal Inf..
Background이미지 복원은 노이즈, 블러, 비, 왜곡 등 다양한 열화를 제거해 "깨끗한 이미지"를 복원하는 고전적인 저수준 비전 과제입니다. 최근 SOTA는 주로 CNN 기반이지만 이는 지역적인 패턴 복원에는 강하지만 장거리 의존성 포착에는 한계를 보인다는 점이 핵심적인 문제로 지적되고 있습니다. 이 한계를 보완하기 위해 일부 연구들은 self-attention을 도입했지만 전역 self-attention의 계산량이 토큰 수에 대해 제곱으로 증가해 고해상도 특징맵에 직접 적용하기 어렵기 때문에 주로 저해상도에서 "일부 레이어만" 제한적으로 쓰는 경우가 많았습니다. 본 논문에서는 이미지의 디테일있는 복원을 위해 여러 해상도 (멀티스케일) 특징맵에서 self-attention을 적극적으로 활용하되 계..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 3)에서는 상호정보량과 상관계수 사이의 관계성에 대해서 간단하게 알아보았습니다. 오늘은 정규화된 상호정보량 (Normalized Multual Information; NMI)에 대해서 알아보도록 하겠습니다. 어떤 응용에서는 두 변수의 의존성을 0과 1 사이로 정규화한 측정값이 있다면 유용합니다. 저희는 이전 포스팅에서 다음과 같은 결론을 얻었었습니다. $$\begin{cases} \mathbb{I}(X; Y) &= \mathbb{H}(X) - \mathbb{H}(X \mid Y) \le \mathbb{H}(X) \\ \mathbb{I}(X; Y) &= \mathbb{H}(..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 2)에서는 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보았습니다. 오늘은 상호정보량과 상관계수 사이의 관계성에 대해서 더 자세하게 알아보도록 하겠습니다. $(x, y)$가 결합 가우시안 (joint Gaussian)이라고 가정하면 다음과 같이 쓸 수 있습니다. $$\begin{pmatrix} x \\ y \end{pmatrix} \sim \mathcal{N} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \sigma^{2}..
BackgroundState Space Model (SSM)은 원래 칼만 필터 (Kalman Filter)에서 시작된 고전적인 모델로 긴 시퀀스에서의 장기 의존성을 잘 처리하면서도 병렬 학습이 가능하다는 장점을 가집니다. 최근 몇 년 간 S4, DSS, S4D와 같은 다양한 SSM 변형 모델들이 제안되면서 텍스트 및 시계열 등 긴 시퀀스를 다루는 분야에서 Transformer의 대안으로 부상하고 있습니다. 그 중에서도 Mamba라는 모델은 입력에 따라 동적으로 변화하는 (Time-varying) 파라미터, GPU 친화적인 구현을 통해 긴 시퀀스를 매우 효율적으로 처리하는 언어 모델로 주목받고 있습니다. 하지만, 지금까지는 이미지 및 비디오와 같은 시각 데이터 전체를 순수 SSM으로 처리하는 범용 비전 백..