지난 포스팅의 [PML intro] Ch7 Linear Algebra (Sec.7.1 Introduction - 3)에서는 벡터와 행렬의 크기를 측정하는 방법인 노름(Norm)에 대해서 알아보았습니다. 오늘은 행렬을 몇 가지 중요한 성질들에 대해서 알아보도록 하겠습니다. 1. 정사각행렬의 트레이스 (Trace of a square matrix)정사각행렬 $\mathbf{A} \in \mathbb{R}^{n \times n}$의 트레이스는 행렬의 대각 원소들의 합으로 $\text{tr} (\mathbf{A}) = \sum_{i = 1}^{n} A_{ii}$로 정의됩니다. 트레이스는 단순하지만 몇 가지 중요한 성질들을 가집니다. $c \in \mathbb{R}$ 그리고 $\mathbf{A}, \mathbf..
Background딥 러닝 기반 시각 표현학습은 오랫동안 CNN과 Vision Transformer (ViT)라는 두 축을 중심으로 발전해왔습니다. CNN은 지역적인 패턴을 효율적으로 포착하는 대신 먼 거리에 있는 패치 간의 관계를 모델링하는 데에 한계가 존재한다. 반대로 ViT는 self-attention을 통해 전역적인 문맥 정보를 동적으로 통합할 수 잇지만 토큰 수에 대해 연산 복잡도 제곱으로 증가한다는 근본적인 병목 문제를 안고 있어 고해상도 입력이다 다운스트림 비전 태스크에서 계산, 메모리 효율이 크게 떨어진다. 이러한 문제를 완화하기 위해 다양한 효율형 어텐션, 계층적 ViT, ConNeXt와 같은 Transformer 스타일 CNN 등이 제안되었지만 여전히 전역적인 수용영역과 동적 가중치, ..
지난 포스팅의 [PML intro] Ch7 Linear Algebra (Sec.7.1 Introduction - 2)에서는 벡터공간(Vector Space)에 대한 설명을 하였습니다. 이를 통해, 선형독립, 생성공간, 기저, 선형사상과 행렬 사이의 관계, 치역과 영공간, 선형 사영에 대한 필수적인 개념들을 정말 간단하게 알아보았습니다. 오늘은 벡터와 행렬의 크기를 측정하는 방법인 노름(Norm)에 대해서 알아보도록 하겠습니다. 1. 벡터 노름(Vector Norm)벡터 노름 $||\mathbf{x}||$는 벡터의 길이를 재는 척도라고 볼 수 있습니다. 더 엄밀하게 이야기하면 노름이란 다음 4가지 성질을 만족하는 함수 $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$를 말합니다..
지난 포스팅의 [PML intro] Ch7 Linear Algebra (Sec.7.1 Introduction - 1)에서는 선형대수(Linear Algebra)의 기초적인 내용을 다루어보았습니다. 선형대수는 결국 벡터, 행렬, 그리고 텐서를 다루는 학문으로 이를 포함한 집합과 관련된 연산을 정의한 공간이 바로 벡터공간(Vector Space)입니다. 오늘은 이에 대한 간단한 설명을 진행하겠습니다. 혹시 이에 대한 더 자세한 내용이 궁금하신 분은 제가 이전에 포스팅한 글을 참고해주세요. 선형대수학 - 벡터공간선형대수학 - 부분공간선형대수학 - 선형결합선형대수학 - 선형 종속과 독립선형대수학 - 기저와 차원 1. 벡터의 덧셈과 스칼라배 (Vector Addition and Scaling)벡터 $\mat..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 8)에서는 Fano의 부등식 (Fano's Inequality)에 알아보았습니다. 오늘은 새로운 주제로 넘어가서 선형대수(Linear Algebra)의 기초적인 내용을 다루어보도록 하겠습니다. 선형대수학의 더 자세한 내용은 제 블로그 포스팅들을 참고해주시면 감사하겠습니다. 오늘은 기본적인 표기법(Notation)들을 알아보도록 하겠습니다. 1. 벡터 (Vectors)벡터 $\mathbf{x} \in \mathbb{R}^{n}$은 $n$개의 숫자를 나열한 것으로 보통은 다음과 같이 열벡터(column vector)의 형태로 많이 사용합니다. $$\mathbf{x} = \b..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 7)에서는 충분통계량 (Sufficient Statistics)에 대해서 설명하였습니다. 오늘은 Fano의 부등식 (Fano's Inequality)에 알아보도록 하겠습니다. 특징 선택에서 흔히 쓰이는 방법 중 하나는 입력 특징 $X_{d}$ 중에서 응답변수 (예측) $Y$와의 상호정보량 $\mathbb{I}(X; Y)$가 큰 것들을 고르는 것입니다. 이번 포스팅에서는 이러한 직관적인 이해를 보다 엄밀하게 증명해보는 시간을 가져보겠습니다. 이 과정에서 쓰이는 것이 바로 Fano의 부등식 (Fano's Inequality)으로 어떤 분류 방법을 쓰든 오분류 확률을 "특징 $X..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 6)에서는 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 알아보았습니다. 오늘은 이전에 잠깐 설명만 했던 충분통계량 (Sufficient Statistics)에 대해서 간단하게 한번 더 말씀드리도록 하겠습니다. 이전 포스팅의 데이터 처리 부등식의 중요한 결과를 생각해보도록 하겠습니다. 연쇄 마르코프 체인 $\theta \rightarrow \mathcal{D} \rightarrow s(\mathcal{D})$가 존재한다고 가정할 때 $\mathbb{I}(\theta; s(\mathcal{D})) \le \..
지난 포스팅의 [PML intro] Ch6 Information Theory (Sec.6.3 Mutual Information - 5)에서는 상호정보량과 관련된 중요한 quantity 중 하나인 최대정보계수 (Maximal Information Coefficient; MIC)에 대해서 알아보았습니다. 오늘은 상호정보량과 관련된 중요한 정리인 데이터 처리 부등식 (Data Processing Inequality)에 대해서 설명해보도록 하겠습니다. 어떤 미지의 변수 $X$가 있고 저희는 그에 대한 잡음 섞인 관측값 $Y$를 본다고 가정하겠습니다. 이제 이 잡음이 섞인 관측값 $Y$를 어떤 방식으로든 가공(processing)헤서 새로운 변수 $Z$를 만들면 직관적으로 $X$에 대해 알고 있는 정보가 더 늘..