통계학에서 의사결정을 할 때 베이지안과 빈도주의 접근방식이 존재합니다. 지금까지는 베이지안 접근법에 집중하였고 오늘은 빈도주의 의사결정에 대해서 설명해보도록 하겠습니다.
이전 포스팅에서 빈도주의 관점의 사고방식에 대해서 간단하게 살펴보기는 하였습니다. 약간 리마인드 차원에서 복습을 해보도록 하겠습니다. 일반적으로 $\theta$는 모르는 값으로 고정된 하나의 값이지만 그거를 알 수는 없다고 가정합니다. 그리고 데이터 $x$는 무작위로 샘플링되며 이로 인해 매번 달라질 수 있습니다. 따라서, 한 번의 데이터로만 판단하지 않고 여러 번 데이터가 뽑힌다고 가정해서 평균적인 손실 또는 리스크를 계산합니다.
여기서 리스크를 정의하는 방법이 중요합니다. 어떤 추정 방법 $\delta$를 사용한다고 가정했을 때 평균적으로 오차가 얼마나 발생하는 지를 리스크로 정의하여 다음과 같이 일반적인 형태로 쓸 수 있습니다.
$$R(\theta, \delta) = \mathbb{E}_{p(x \mid \theta)} \left[ l(\theta, \delta(x)) \right]$$
여기서 $l$은 손실함수로 일반적으로 MSE를 많이 사용합니다. 이전에 편향과 분산 사이의 관계의 증명에서 저희는 MSE는 분산과 편향의 제곱의 형태로 나누어서 표현할 수 있음을 보았습니다. 가우시안 평균 추정을 통해 예시를 들어보도록 하겠습니다. 즉, 각 데이터가 $x_{n} \sim \mathcal{N}(\theta^{*}, \sigma^{2} = 1)$에서 뽑혔다고 가정하고 총 $N$개의 샘플을 뽑았다고 가정하겠습니다. 여기서 손실 함수로 제곱 손실을 사용하겠습니다. 그러면 저희는 여기서 비교할 4가지 추정량을 다음과 같이 정의해놓도록 하겠습니다.
- 표본평균 $\delta_{1}(x)$: 편향 없음 & 분산 $\frac{\sigma^{2}}{N}$
- 표본중앙값 $\delta_{2}(x)$: 비효율적임 & 분산 $\frac{\pi}{2N}$
- 고정값 $\delta_{3}(x) = \theta_{0}$: 편향 $(\theta^{*} - \theta_{0})^{2}$ & 분산 없음
- 가우시안 사전분포를 쓴 사후평균 $\delta_{\kappa}(x) = \frac{N}{N + \kappa} x + \frac{\kappa}{N + \kappa}\theta_{0}$: 데이터와 사전 정보 $\theta_{0}$의 가중평균

여기서 결론적으로 $\theta^{*}$와 $\theta_{0}$가 매우 가까우면 고정값 $\delta_{3}$가 좋음을 알 수 있습니다. 그리고 $\theta^{*}$가 어느정도 $\theta_{0}$의 주변에 있다면 사후 평균 $\delta_{\kappa}$가 더 좋습니다. 하지만, $\theta^{*}$와 $\theta_{0}$가 멀다면 MLE $\delta_{1}$이 더 좋다는 것을 알 수 있죠.
1. 베이즈 리스크(Bayes Risk)
하지만, 일반적으로 데이터 $x$를 생성하는 실제 파라미터 $\theta$는 알 수 없기 때문에 처음 식의 $R(\theta, \delta)$는 직접적으로 계산할 수 없습니다. 이를 해결하는 한 가지 방법은 $\theta$에 대해 사전분포 $\pi_{0}(\theta)$를 가정하고 $\theta$를 평균 내는 방식입니다. 이를 베이즈 리스크라고 하죠.
$$R_{\pi_{0}} = \mathbb{E}_{\pi_{0}(\theta)} \left[ R(\theta, \delta) \right] = \int d\theta dx \pi_{0}(\theta) p(x \mid \theta) l(\theta, \delta(x))$$
베이즈 리스크를 최소화하는 추정량을 베이즈 추정량(Bayes Estimator)라고 합니다. 이는 베이즈 의사결정이론에서의 최적 정책과 동일합니다.
$$\begin{align} \delta(x) &= \text{argmin}_{a} \int d\theta \pi_{0}(\theta) p(x \mid \theta) l(\theta, a) \\ &= \text{argmin}_{a} \int d\theta p(\theta \mid x) l(\theta, a) \end{align}$$
베이즈 방식은 각 데이터 케이스 별로 최적 행동을 선택하게 됩니다. 이는 평균적으로 빈도주의 관점에서도 최적임을 의미하고 되죠. 따라서, 지난 포스팅에서 다루었던 베이즈 접근 방식 역시 빈도주의 관점에서 최적의 결과를 달성할 수 있게 도울 수 있다는 의미입니다.
2. 최대 리스크(Maximum Risk)
빈도주의 통계에서는 사전 분포를 사용하는 것을 별로 안좋아합니다. 따라서, 최대 리스크라는 방식을 사용하기도 하죠.
$$R_{\text{max}}(\delta) = \text{sup}_{\theta} R(\theta, \delta)$$
이는 주어진 추정량 $\delta$에 대해 모든 가능한 $\theta$ 값 중에서 리스크가 가장 큰 값을 의미합니다. 즉, 최악의 경우를 고려한 리스크가 되죠. 이렇게 최대 리스크를 최소화하는 추정량을 최소-최대 추정량(Minimax Estimator) $\delta_{\text{MM}}$라고 합니다.

그림 5.9에서는 $\delta_{1}$는 $\theta$ 전 범위에서 $\theta_{2}$ 보다 최악의 리스크가 낮으므로 최소-최대 추정량이 됩니다. 이는 최악의 상황에서도 안정적인 성능을 보장합니다. 하지만, 계산이 복잡하고 매우 보수적(pessimistic)인 결과를 제공하죠. 이는 자연현상이 항상 적대적이라고 가정하는 셈이 됩니다. 이러한 최소-최대 추정량은 최악의 사전분포 하에서의 베이즈 추정량과 동일해집니다. 게임 이론 상황이 아니라면 이러한 적대적인 가정은 매우 비 현실적이죠.