안녕하세요. 지난 포스팅에서는 베이지안 통계을 기반으로하는 결정 방식에 대해서 정말 간략하게 살펴보았습니다. 이번에는 주어진 입력 $x \in \mathcal{X}$에 대해 어떤 클래스 레이블을 예측할 지 베이지안 결정이론을 기반으로 판단해보도록 하겠습니다. 1. 제로-원 손실(Zero-One Loss)이러한 분류문제에서 가장 단순하게 손실 또는 위험을 구하는 방법이 바로 제로-원 손실 $l_{01}(y^{*}, \hat{y})$입니다. 이는 숨겨진 자연상태 $\mathcal{H}$와 행동 $\mathcal{A}$가 모두 클래스 레이블 집합인 경우를 가정합니다. 이는 예측 $\hat{y}$가 정답 $y^{*}$와 동일하다면 손실을 0으로 주고 다르다면 1로 줍니다. 이를 통해 저희는 손실행렬을 다음과 ..
지금까지는 베이지안과 빈도주의 관점에서 통계에 대한 기본적인 내용을 알아보았습니다. 핵심은 어떤 데이터셋 $\mathcal{D}$가 주어졌을 때 어떻게 모델 파라미터 $\theta$의 값을 추정하고 이에 대한 불확실성을 얻는 지가 핵심이였습니다. 특히, 앞으로 저희가 관심있게 볼 베이지안 관점에서는 모델 파라미터의 사후 확률분포 $p(\theta \mid \mathcal{D})$를 이용해 바로 불확실성을 얻을 수 있었죠. 그리고 새로운 데이터가 입력되었을 때 그에 대응되는 추론 결과를 예측하는 사후 예측분포를 만들거나 사후 모드를 얻는 방법도 설명하였습니다. 하지만, 실질적으로 어떤 결정을 해야하는 지는 이야기를 하지 않았습니다!! 베이지안 추론은 관측된 데이터 $\mathbf{X} = x$가 주어졌을 ..
안녕하세요. 지금까지 저희는 베이즈 관점의 통계를 넘어 빈도주의 관점의 통계까지 확인해보고 있습니다. 여기서 두 관점의 가장 큰 차이는 데이터의 무작위성 유무입니다. 베이즈 관점에서는 관측된 데이터에 대해서는 고정되어 이를 기반으로 파라미터를 추정하게 됩니다. 이에 반해 빈도주의 통계에서는 데이터셋 $\mathcal{D}$를 확률 변수로 취급합니다. 즉, 데이터셋 $\mathcal{D}$를 만드는 파라미터 $\theta^{*}$는 알지못하지만 이를 기반으로 샘플링되어 데이터셋을 만든다는 의미가 되어 $\mathcal{D} \sim p^{*}(\mathcal{D})$라고 할 수 있습니다. 따라서, 샘플링된 데이터에 의해 결정되는 추정치 $\hat{\theta} (\mathcal{D})$ 역시 확률 변수로 ..
빈도주의 통계에서 샘플링 분포가 만들어내는 변동성을 이용해서 파라미터 추정치의 불확실성을 모델링할 수 있습니다. 파라미터 $\theta$에 대해 $100(1 - \alpha)$%의 신뢰구간(confidence intervel; CI)란 데이터셋 $\mathcal{D}$로부터 구간 추정량 $I(\mathcal{D}) = (l(\mathcal{D}), u(\mathcal{D}))$를 만들어 $\text{Pr}(\theta^{*} \in I(\tilde{\mathcal{D}}) \mid \tilde{\mathcal{D}} \sim \theta^{*}) \ge 1 - \alpha$를 만족하게 하는 구간을 의미합니다. 관례적으로는 $\alpha = 0.05$를 써서 95%의 신뢰구간을 제공하죠. 이는 여러 번 데..
추정량이 MLE와 같이 단순하지 않고 복잡한 함수이거나 표본이 작을 때는 샘플링 분포를 몬테카를로 기법인 부트스트랩(bootstrap)으로 근사할 수 있습니다. 기본적인 아이디어를 확인해보도록 하죠. 이론적으로는 데이터셋을 만드는 실제 파라미터 $\theta^{*}$를 안다고 가정하고 $S$개의 가짜 데이터셋을 다음과 같이 생성합니다. $$\tilde{\mathcal{D}}^{(s)} = \{ x_{n} \sim p(x_{n} \mid \theta^{*}) : n = 1 : N \}$$ 그리고 각 샘플에 대해서 추정량을 적용하여 $\hat{\theta}^{(s)} = \hat{\Theta}(\tilde{\mathcal{D}}^{(s)})$를 얻으면 $\{ \hat{\theta}^{(s)} \}$의 경험..
이전 포스팅에서는 샘플링 분포에 관하여 짧게 설명드렸습니다. 간단하게 요약해보도록 하겠습니다. 빈도주의 통계에서의 불확실성은 MLE 또는 MOM과 같은 추정량의 샘플링 분포로 표현합니다. 기본적으로 추정량 $\hat{\Theta}$는 데이터 $\mathcal{D}$를 입력받아 추정값 또는 예측을 반환하는 함수로 정의됩니다. 이때, 데이터 $\mathcal{D}$는 고정되어 있지만 알지 못한다고 가정되는 진짜 파라미터 $\theta^{*}$로부터 무작위로 생성된다고 가정합니다. 따라서, 추정값 $\hat{\theta} = \hat{\Theta}(\mathcal{D})$ 역시 확률 변수로 해석할 수 있으며 여러 번 새로운 데이터를 뽑아 같은 추정 절차를 반복할 때 얻게 될 값들의 분포를 바로 샘플링 분포라고..
빈도주의 통계에서는 불확실성을 어떤 확률 변수의 사후 분포가 아닌 추정량(estimator)의 샘플링 분포(sampling distribution)로 표현합니다. 여기서 추정량 $\delta: \mathcal{D} \rightarrow \mathcal{A}$은 관측 데이터 $\mathcal{D}$가 주어졌을 때 어떤 행동을 취할 지 결정하는 함수입니다. 이 행동은 클래스 레이블을 예측하거나, 다음 관측값을 예측하거나 알 수 없는 파라미터를 추정하는 것일 수도 있습니다. 보통 파라미터를 추정할 때 $\hat{\theta}$을 많이 사용합니다. 하지만, 기호만 보았을 때 숫자인지 함수인지 모호합니다. 따라서, 이를 해결하기 위해 함수 자체를 $\hat{\Theta}$로, 그 함수가 데이터셋 $\mathca..
저희가 Section 4.6에서 살펴본 통계적 추론 방식은 베이즈 통계(Bayes Statistics)입니다. 베이즈 통계의 핵심은 모델의 파라미터 $\theta$를 다른 미지의 확률 변수와 동일하게 취급하며 베이즈 정리를 기반으로 관측된 데이터셋 $\mathcal{D}$을 바탕으로 파라미터 $\theta$의 사후 분포 $p(\theta \mid \mathcal{D})$를 추론하죠. 이를 통해, 새로운 데이터에 대한 예측 분포 및 불확실성 등을 모델링할 수 있었습니다. 이에 비해 모수를 확률 변수로 취급하지 않고 사전 분포 및 베이즈 정리도 사용하지 않는 새로운 통계적 추론 방식도 존재합니다. 이를 빈도주의 통계(Frequentist Statistics), 고전적 통계(Classical Statisti..