분류 전체보기

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 2)

지도 학습에서 가장 중요한 과제 중 하나는 훈련된 모델이 새로운 데이터에서는 잘 작동하는 가 입니다. 이를 위해 저희는 지난 포스팅에서 보았던 모집단 리스크(population risk)를 추정해야하지만 실제 데이터 분포를 알 수 없기 때문에 보통은 데이터를 나누는 방식으로 추정하게 됩니다. 먼저 데이터를 훈련 데이터와 검증 데이터로 나눕니다. 모델은 훈련 데이터를 이용해서 학습하고 검증 데이터에서 성능을 평가합니다. 이를 식으로 쓰면 다음과 같습니다. $$R_{\lambda}(\theta, \mathcal{D}) = \frac{1}{|\mathcal{D}|} \sum_{(x, y) \in \mathcal{D}} l(y, f(x; \theta)) + \lambda C(\theta)$$ 여기서 $\hat..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.4 Empirical Risk Minimization - 1)

이번에는 빈도주의 의사결정 이론을 지도학습에 적용하는 방법을 살펴보도록 하겠습니다. 여기서 중요한 핵심은 리스크를 실제 데이터 기반에서 근사하는 방법입니다. 빈도주의 통계에서 리스크는 다음과 같이 정의됩니다. $$R(\delta, \theta^{*}) = \mathbb{E}_{p(\mathcal{D} \mid \theta^{*})} \left[ l(\theta^{*}, \delta(\mathcal{D})) \right]$$ 지도 학습에서 입력 $x$ 마다 다른 출력 $y$가 존재하며 $y$가 존재하며 추정량 $\delta$는 예측 함수 $f(x)$입니다. 이때 모집단의 리스크는 다음과 같이 정의됩니다. $$R(f, p^{*}) = R(f) = \mathbb{E}_{p^{*}(x)p^{*}(y \mid..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 3)

통계학에서는 추정량을 비교할 때 리스크라는 기준을 채택합니다. 만약, 한 추정량 $\delta_{1}$이 모든 $\theta$에 대해 항상 $\delta_{2}$ 보다 리스크가 작거나 같다면 우리는 $\delta_{1}$이 $\delta_{2}$를 지배(dominate)한다고 합니다. 그리고 어떤 추정량도 자신을 엄격히 지배하지 못한다면 그 추정량을 허용(admissible)하다고 합니다. 이 개념은 단순히 "완전히 뒤처지지 않는 추정량" 정도로 이해할 수 있습니다. 저명한 통계학자인 Wald(1947)은 모든 허용 추정량이 어떤 형태로든 베이지안 의사결정 규칙과 연결된다는 것을 증명하기도 하였습니다. 예를 들어, 평균을 추정할 때 표본 중앙값은 표본 평균보다 항상 리스크가 크기 때문에 허용이 아닙니다..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 2)

통계학에서 일치성(Consistency)는 중요한 추정량의 성질입니다. 기본적인 정의는 데이터셋 $x = \{ x_{n} \mid n = 1 : N\}$의 각 샘플이 어떤 실제 파라미터 $\theta^{*}$를 가지는 확률분포 $x_{n} \sim p(x \mid \theta^{*})$에서 샘플링되고 각각 I.I.D 가정을 따른다고 하겠습니다. 그러면 추정량 $\delta: \mathcal{X}^{N} \rightarrow \Theta$가 일치 추정량(consistent estimator)라는 것은 $N \rightarrow \infty$가 될 수록 $\hat{\theta}(x) \rightarrow \theta^{*}$가 되는 것입니다. 즉, 데이터가 무한히 많아 질수록 추정값이 실제 참파라미터 $\t..

Paper Review

Vision Transformer with Deformable Attention (CVPR2022)

안녕하세요. 오늘은 Transformer에 Deformable Convolution Network의 컨셉을 적용한 Deformable Attention Module을 소개하도록 하겠습니다. BackgroundVision Transformer(ViT)는 CNN보다 넓은 수용영역(receptive field)를 통해 장거리 의존성 모델링에 강점을 보이며 영상 분류, 객체 검출 및 분할 등과 같은 다양한 컴퓨터 비전 문제에서 활용되고 있습니다. 하지만 단순히 수용영역을 넓히는 것은 두 가지 문제를 야기합니다. - Dense Attention의 비효율성: ViT와 같이 모든 쿼리가 전체 키에 접근하는 방식은 연산 및 메모리 비용이 크고 불필요한 정보까지 주목하여 과적합 위험이 높아집니다. - Sparse At..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.3 Frequentist Decision Theory - 1)

통계학에서 의사결정을 할 때 베이지안과 빈도주의 접근방식이 존재합니다. 지금까지는 베이지안 접근법에 집중하였고 오늘은 빈도주의 의사결정에 대해서 설명해보도록 하겠습니다. 이전 포스팅에서 빈도주의 관점의 사고방식에 대해서 간단하게 살펴보기는 하였습니다. 약간 리마인드 차원에서 복습을 해보도록 하겠습니다. 일반적으로 $\theta$는 모르는 값으로 고정된 하나의 값이지만 그거를 알 수는 없다고 가정합니다. 그리고 데이터 $x$는 무작위로 샘플링되며 이로 인해 매번 달라질 수 있습니다. 따라서, 한 번의 데이터로만 판단하지 않고 여러 번 데이터가 뽑힌다고 가정해서 평균적인 손실 또는 리스크를 계산합니다. 여기서 리스크를 정의하는 방법이 중요합니다. 어떤 추정 방법 $\delta$를 사용한다고 가정했을 때 ..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 6)

전통적인 베이즈 기반의 가설검정은 귀무가설 $H_{0}$과 대립가설 $H_{1}$을 세우고 베이즈 요소(Bayes Factor) $\frac{p(\mathcal{D} \mid H_{0})}{p(\mathcal{D} \mid H_{1})}$을 계산해 모델을 비교하게 됩니다. 하지만, 이 방식은 주변우도 계산이 복잡하고 사전 확률분포 선택에 민감하다는 문제점이 있습니다. 또한, 실질적으로는 효과가 0인지 아닌지 보다는 효과 크기(effect size) 자체를 추정하는 데 더 큰 관심이 있습니다. 예를 들어, 두 모델의 성능 차이가 0.1%라도 통계적으로 유의할 수는 있지만 그게 실질적으로 의미 있는 차이일까요? 이런 경우에는 단순히 $p(\Delta > 0 \mid \mathcal{D})$ 대신 의미 있는..

인공지능/Probabilistic Machine Learning (intro)

[PML intro] Ch5 Decision Theory (Sec.5.2 Choosing the “Right” Model - 5)

앞서 본 베이지안 기반의 모델 선택에서는 주변우도 $p(\mathcal{D} \mid m) = \int p(\mathcal{D} \mid \theta, m) p(\theta \mid m) \; d\theta$를 계산해야만 했습니다. 하지만, 일반적으로 이는 파라미터 전체 공간에 대한 적분을 수행해야하기 때문에 계산이 어려우며 파라미터에 대한 사전 확률분포에 따라서 민감하게 달라지는 문제가 있습니다. 이를 대체하기 위해 정보 기준(Information Criteria)라는 계산이 훨씬 단순한 모델 선택 지표를 사용할 수 있습니다. 정보 기준의 공통적인 구조는 다음과 같습니다. $$\mathcal{L}(m) = -\log p(\mathcal{D} \mid \hat{\theta}, m) + C(m)$$ 여..

Johns Hohns
'분류 전체보기' 카테고리의 글 목록 (4 Page)