지난 포스팅에서도 설명드렸다싶이 가설검정이라는 것은 일종의 이진 분류 문제로 해석할 수 있습니다. 그리고 일반적으로 발생할 수 있는 오류에는 두 가지가 있습니다. 먼저 위양성(False Positive) 또는 제1종 오류(Type I Error)는 귀무가설이 참일 때 대립가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 1 \mid H = 0)$인 경우이죠. 반대로 위음성(False Negative) 또는 제2종 오류(Type II Error)는 대립가설이 참일 때 귀무가설을 잘못 받아들이는 경우에 해당합니다. 즉, $p(\hat{H} = 0 \mid H = 1)$인 경우이죠. 1. 제1종 오류(Type I Error) 제1종 오류율 $\alpha$는 검정의 유의 수준(signi..
이번 포스팅부터는 주어진 데이터셋 $\mathcal{D}$를 바탕으로 어떤 가설(모형 및 모델)이 그럴듯한지에 대한 여부를 판단하는 방법인 가능도 비 검정(Likelihood Ratio Test; LRT)에 대해서 알아보도록 하겠습니다. 어떤 모형이 주어진 데이터를 잘 설명하는지 여부를 판단할 때 항상 "무엇과 비교해서"라는 질문을 던지는 것이 유용합니다. 딥 러닝에서만 예시를 들어봐도 어떤 모델 또는 알고리즘을 제안할 때 비교군들과 제안된 방법론 간의 비교를 통해서 하듯이 말이죠. 이를 빈도주의론적 관점에서 해석할 때는 두 가지 가설을 고려합니다. 이를 각각 귀무가설 $H_{0}$와 대립가설 $H_{1}$이 있다고 가정하고 어떤 쪽이 더 그럴듯한지를 선택하고자 합니다. 이는 $H \in \{ 0, 1..
지난 포스팅에서 보았던 교차검증은 일반화 오차를 추정하는 데 강력한 도구로 활용할 수 있지만 단점은 느리다는 점 입니다. 왜냐하면 모델을 여러 번 학습시켜야하기 때문이죠. 그래서 더 빠른 대안으로 모집단 리스크를 직접 근사하거나 상계(Upper Bound)를 구하는 방법이 연구됩니다. 이것이 바로 통계적 학습 이론(Statistical Learning Theory; SLT)의 핵심입니다. SLT의 목적은 일반화 오차에 대한 확률적 상계를 구하는 것 입니다. 즉, 어떤 확률로 "경험적 위험을 최소화한 가설이 모집단에서도 낮은 위험을 가진다"는 보장을 주는 것이죠. 이렇게 하면 데이터에 대해 ERM을 적용했을 때 그 결과가 실제 분포에서도 잘 작동할 것이라고 수학적으로 신뢰할 수 있게 됩니다. 이진 분류기..
지도 학습에서 가장 중요한 과제 중 하나는 훈련된 모델이 새로운 데이터에서는 잘 작동하는 가 입니다. 이를 위해 저희는 지난 포스팅에서 보았던 모집단 리스크(population risk)를 추정해야하지만 실제 데이터 분포를 알 수 없기 때문에 보통은 데이터를 나누는 방식으로 추정하게 됩니다. 먼저 데이터를 훈련 데이터와 검증 데이터로 나눕니다. 모델은 훈련 데이터를 이용해서 학습하고 검증 데이터에서 성능을 평가합니다. 이를 식으로 쓰면 다음과 같습니다. $$R_{\lambda}(\theta, \mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{(x, y) \in \mathcal{D}} l(y, f(x; \theta)) + \lambda C(\theta)$$ 여기서 $\hat..
이번에는 빈도주의 의사결정 이론을 지도학습에 적용하는 방법을 살펴보도록 하겠습니다. 여기서 중요한 핵심은 리스크를 실제 데이터 기반에서 근사하는 방법입니다. 빈도주의 통계에서 리스크는 다음과 같이 정의됩니다. $$R(\delta, \theta^{*}) = \mathbb{E}_{p(\mathcal{D} \mid \theta^{*})} \left[ l(\theta^{*}, \delta(\mathcal{D})) \right]$$ 지도 학습에서 입력 $x$ 마다 다른 출력 $y$가 존재하며 $y$가 존재하며 추정량 $\delta$는 예측 함수 $f(x)$입니다. 이때 모집단의 리스크는 다음과 같이 정의됩니다. $$R(f, p^{*}) = R(f) = \mathbb{E}_{p^{*}(x)p^{*}(y \mid..
통계학에서는 추정량을 비교할 때 리스크라는 기준을 채택합니다. 만약, 한 추정량 $\delta_{1}$이 모든 $\theta$에 대해 항상 $\delta_{2}$ 보다 리스크가 작거나 같다면 우리는 $\delta_{1}$이 $\delta_{2}$를 지배(dominate)한다고 합니다. 그리고 어떤 추정량도 자신을 엄격히 지배하지 못한다면 그 추정량을 허용(admissible)하다고 합니다. 이 개념은 단순히 "완전히 뒤처지지 않는 추정량" 정도로 이해할 수 있습니다. 저명한 통계학자인 Wald(1947)은 모든 허용 추정량이 어떤 형태로든 베이지안 의사결정 규칙과 연결된다는 것을 증명하기도 하였습니다. 예를 들어, 평균을 추정할 때 표본 중앙값은 표본 평균보다 항상 리스크가 크기 때문에 허용이 아닙니다..
통계학에서 일치성(Consistency)는 중요한 추정량의 성질입니다. 기본적인 정의는 데이터셋 $x = \{ x_{n} \mid n = 1 : N\}$의 각 샘플이 어떤 실제 파라미터 $\theta^{*}$를 가지는 확률분포 $x_{n} \sim p(x \mid \theta^{*})$에서 샘플링되고 각각 I.I.D 가정을 따른다고 하겠습니다. 그러면 추정량 $\delta: \mathcal{X}^{N} \rightarrow \Theta$가 일치 추정량(consistent estimator)라는 것은 $N \rightarrow \infty$가 될 수록 $\hat{\theta}(x) \rightarrow \theta^{*}$가 되는 것입니다. 즉, 데이터가 무한히 많아 질수록 추정값이 실제 참파라미터 $\t..
안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..