분류 전체보기

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 3)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 2)에서는 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보았습니다. 오늘은 상호정보량과 상관계수 사이의 관계성에 대해서 더 자세하게 알아보도록 하겠습니다. $(x, y)$가 결합 가우시안 (joint Gaussian)이라고 가정하면 다음과 같이 쓸 수 있습니다. $$\begin{pmatrix} x \\ y \end{pmatrix} \sim \mathcal{N} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \sigma^{2}..

Paper Review

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (ICML2024)

BackgroundState Space Model (SSM)은 원래 칼만 필터 (Kalman Filter)에서 시작된 고전적인 모델로 긴 시퀀스에서의 장기 의존성을 잘 처리하면서도 병렬 학습이 가능하다는 장점을 가집니다. 최근 몇 년 간 S4, DSS, S4D와 같은 다양한 SSM 변형 모델들이 제안되면서 텍스트 및 시계열 등 긴 시퀀스를 다루는 분야에서 Transformer의 대안으로 부상하고 있습니다. 그 중에서도 Mamba라는 모델은 입력에 따라 동적으로 변화하는 (Time-varying) 파라미터, GPU 친화적인 구현을 통해 긴 시퀀스를 매우 효율적으로 처리하는 언어 모델로 주목받고 있습니다. 하지만, 지금까지는 이미지 및 비디오와 같은 시각 데이터 전체를 순수 SSM으로 처리하는 범용 비전 백..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 2)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 1)에서는 상호정보량에 대해서 알아보았습니다. 이를 이해하는 방법으로 서로의 독립성을 가정했을 때와 가정하지 않았을 때의 결합분포들의 차이를 계산하는 방식을 설명드렸습니다. 즉, KL 발산의 응용으로 볼 수 있으며 KL 발산이 가지고 있는 가장 중요한 특성인 0보다 크거나 같다는 특성이 상호정보량에도 그대로 적용됩니다. 오늘은 새로운 확률변수가 포함되었을 때의 조건부 상호정보량 (Conditional Mutual Information; CMI)에 대해서 알아보도록 하겠습니다. 조건부 상호정보량은 다음과 같이 정의됩니다. $$\mathbb{I}(X; Y \mid Z) = \m..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 1)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 4)에서는 forward KL과 reverse KL 사이의 차이점에 대해서 알아보았습니다. 주제를 조금 바꾸어 상호 정보량 (Mutual Information)에 대해서 더 자세히 알아보도록 하겠습니다. KL 발산은 두 분포가 얼마나 비슷한 지 측정하는 도구 중에 하나로 유사성에 초점을 맞춘 방식이였죠. 그렇다면 두 확률변수 $X$와 $Y$가 얼마나 의존하는 지는 어떤 방식으로 측정할 수 있을까요? 한 가지 아이디어는 질문을 이렇게 바꾸는 것 입니다. 둘이 얼마나 의존적인가? $\Rightarrow$ 둘의 분포가 서로 독립일 때의 분포와 얼마나 큰..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 4)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 3)에서는 KL 발산를 최소화하는 것과 MLE는 사실 상 동일하다는 것을 간단한 방식으로 증명해보았습니다. 오늘은 forward KL과 backward KL에 대해서 알아보도록 하겠습니다. 시작하기에 앞서 왜 forward와 reverse KL의 개념이 생겼는지부터 이해해보겠습니다. KL 발산은 두 분포 사이의 차이를 측정해주는 도구로 널리 사용되기는 하지만 "거리(metric)"이라고는 볼 수 없습니다. 왜냐하면 $\mathcal{D}_{\mathbb{KL}} (p || q) \neq \mathcal{D}_{\mathbb{KL}}(q || p)$이..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 3)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 2)에서는 KL 발산의 가장 중요한 성질로 항상 0보다 크거나 같다는 것을 증명하였습니다. 또한, KL 발산이 0이 되기 위해서는 두 분포가 동일해야함도 함께 보였죠. 오늘은 아주 초반에 배웠던 MLE와 KL 발산 사이의 관계성에 대해서 알아보도록 하겠습니다. 저희의 목표를 진짜 분포 $p$가 있다고 가정했을 때 여기에 가장 가까운 분포 $q$를 KL 발산으로 측정하여 찾고 싶다고 두겠습니다. 이러한 목표를 수식으로 적으면 $q^{*} = \text{argmin}_{q} \mathcal{D}_{\mathbb{KL}}(p || q)$가 되죠. 이제 KL..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 2)

지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 1)에서는 분포 사이의 차이를 측정하는 방법 중 하나인 KL 발산의 정의와 예시에 대해서 알아보았습니다. 오늘 포스팅에서는 KL 발산의 중요한 성질로 KL 발산이 항상 0 이상임을 증명해보도록 하겠습니다. 이를 위해 저희는 옌센 부등식(Jensen's Inequality)를 사용해야합니다. 옌센 부등식은 임의의 볼록함수 $f$에 대해 다음을 만족하는 것을 의미합니다. $$f \left( \sum_{i = 1}^{n} \lambda_{i} x_{i} \right) \le \sum_{i = 1}^{n} \lambda_{i} f(x_{i}) \Right..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch6 Information Theory (Sec.6.2 Relative entropy (KL divergence) - 1)

지난 포스팅 [PML intro] Ch6 Information Theory (Sec.6.1 Entropy - 3) 에서 저희는 연속 확률변수의 미분 엔트로피를 다루었습니다. 이산의 경우와 달리 음수가 될 수도 있으며 균등분포나 가우시안 분포와 같은 예시를 통해 간단한 계산 과정도 확인하였습니다. 특히, 가우시안은 분산이 커질수록 엔트로피가 증가하지만 혼합분포와 같은 복잡한 분포의 경우 분산이 커진다고 해서 엔트로피가 반드시 증가하는 것은 아니라는 사실을 확인하였습니다.1. 상대 엔트로피(Relative entropy)두 분포 $p$와 $q$가 주어졌을 때, 이들이 얼마나 더 가깝거나 혹은 유사한지를 측정하는 거리 척도를 정의하는 것은 딥 러닝이나 머신러닝에서 자주 사용됩니다. 실제로 저희는 더 일반적으로..

Johns Hohns
'분류 전체보기' 카테고리의 글 목록 (2 Page)