전체 글

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 2)

지난 포스팅에서도 설명드렸다싶이 가설검정이라는 것은 일종의 이진 분류 문제로 해석할 수 있습니다. 그리고 일반적으로 발생할 수 있는 오류에는 두 가지가 있습니다. 먼저 위양성(False Positive) 또는 제1종 오류(Type I Error)는 귀무가설이 참일 때 대립가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 1 \mid H = 0)$인 경우이죠. 반대로 위음성(False Negative) 또는 제2종 오류(Type II Error)는 대립가설이 참일 때 귀무가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 0 \mid H = 1)$인 경우이죠. 1. 제1종 오류(Type I Error) 제1종 오류율 $\alpha$는 검정의 유의 수준(signi..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.5 Frequentist Hypothesis Testing - 1)

이번 포스팅부터는 주어진 데이터셋 $\mathcal{D}$를 바탕으로 어떤 가설(모형 및 모델)이 그럴듯한지에 대한 여부를 판단하는 방법인 가능도 비 검정(Likelihood Ratio Test; LRT)에 대해서 알아보도록 하겠습니다. 어떤 모형이 주어진 데이터를 잘 설명하는지 여부를 판단할 때 항상 "무엇과 비교해서"라는 질문을 던지는 것이 유용합니다. 딥 러닝에서만 예시를 들어봐도 어떤 모델 또는 알고리즘을 제안할 때 비교군들과 제안된 방법론 간의 비교를 통해서 하듯이 말이죠. 이를 빈도주의론적 관점에서 해석할 때는 두 가지 가설을 고려합니다. 이를 각각 귀무가설 $H_{0}$와 대립가설 $H_{1}$이 있다고 가정하고 어떤 쪽이 더 그럴듯한지를 선택하고자 합니다. 이는 $H \in \{ 0, 1..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 3)

지난 포스팅에서 보았던 교차검증은 일반화 오차를 추정하는 데 강력한 도구로 활용할 수 있지만 단점은 느리다는 점 입니다. 왜냐하면 모델을 여러 번 학습시켜야하기 때문이죠. 그래서 더 빠른 대안으로 모집단 리스크를 직접 근사하거나 상계(Upper Bound)를 구하는 방법이 연구됩니다. 이것이 바로 통계적 학습 이론(Statistical Learning Theory; SLT)의 핵심입니다. SLT의 목적은 일반화 오차에 대한 확률적 상계를 구하는 것 입니다. 즉, 어떤 확률로 "경험적 위험을 최소화한 가설이 모집단에서도 낮은 위험을 가진다"는 보장을 주는 것이죠. 이렇게 하면 데이터에 대해 ERM을 적용했을 때 그 결과가 실제 분포에서도 잘 작동할 것이라고 수학적으로 신뢰할 수 있게 됩니다. 이진 분류기..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 2)

지도 학습에서 가장 중요한 과제 중 하나는 훈련된 모델이 새로운 데이터에서는 잘 작동하는 가 입니다. 이를 위해 저희는 지난 포스팅에서 보았던 모집단 리스크(population risk)를 추정해야하지만 실제 데이터 분포를 알 수 없기 때문에 보통은 데이터를 나누는 방식으로 추정하게 됩니다. 먼저 데이터를 훈련 데이터와 검증 데이터로 나눕니다. 모델은 훈련 데이터를 이용해서 학습하고 검증 데이터에서 성능을 평가합니다. 이를 식으로 쓰면 다음과 같습니다. $$R_{\lambda}(\theta, \mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{(x, y) \in \mathcal{D}} l(y, f(x; \theta)) + \lambda C(\theta)$$ 여기서 $\hat..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 1)

이번에는 빈도주의 의사결정 이론을 지도학습에 적용하는 방법을 살펴보도록 하겠습니다. 여기서 중요한 핵심은 리스크를 실제 데이터 기반에서 근사하는 방법입니다. 빈도주의 통계에서 리스크는 다음과 같이 정의됩니다. $$R(\delta, \theta^{*}) = \mathbb{E}_{p(\mathcal{D} \mid \theta^{*})} \left[ l(\theta^{*}, \delta(\mathcal{D})) \right]$$ 지도 학습에서 입력 $x$ 마다 다른 출력 $y$가 존재하며 $y$가 존재하며 추정량 $\delta$는 예측 함수 $f(x)$입니다. 이때 모집단의 리스크는 다음과 같이 정의됩니다. $$R(f, p^{*}) = R(f) = \mathbb{E}_{p^{*}(x)p^{*}(y \mid..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 3)

통계학에서는 추정량을 비교할 때 리스크라는 기준을 채택합니다. 만약, 한 추정량 $\delta_{1}$이 모든 $\theta$에 대해 항상 $\delta_{2}$ 보다 리스크가 작거나 같다면 우리는 $\delta_{1}$이 $\delta_{2}$를 지배(dominate)한다고 합니다. 그리고 어떤 추정량도 자신을 엄격히 지배하지 못한다면 그 추정량을 허용(admissible)하다고 합니다. 이 개념은 단순히 "완전히 뒤처지지 않는 추정량" 정도로 이해할 수 있습니다. 저명한 통계학자인 Wald(1947)은 모든 허용 추정량이 어떤 형태로든 베이지안 의사결정 규칙과 연결된다는 것을 증명하기도 하였습니다. 예를 들어, 평균을 추정할 때 표본 중앙값은 표본 평균보다 항상 리스크가 크기 때문에 허용이 아닙니다..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 2)

통계학에서 일치성(Consistency)는 중요한 추정량의 성질입니다. 기본적인 정의는 데이터셋 $x = \{ x_{n} \mid n = 1 : N\}$의 각 샘플이 어떤 실제 파라미터 $\theta^{*}$를 가지는 확률분포 $x_{n} \sim p(x \mid \theta^{*})$에서 샘플링되고 각각 I.I.D 가정을 따른다고 하겠습니다. 그러면 추정량 $\delta: \mathcal{X}^{N} \rightarrow \Theta$가 일치 추정량(consistent estimator)라는 것은 $N \rightarrow \infty$가 될 수록 $\hat{\theta}(x) \rightarrow \theta^{*}$가 되는 것입니다. 즉, 데이터가 무한히 많아 질수록 추정값이 실제 참파라미터 $\t..

Paper Review

Vision Transformer with Deformable Attention (CVPR2022)

안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..

Johns Hohns
Everyday Image Processing