통계학에서 일치성(Consistency)는 중요한 추정량의 성질입니다. 기본적인 정의는 데이터셋 $x = \{ x_{n} \mid n = 1 : N\}$의 각 샘플이 어떤 실제 파라미터 $\theta^{*}$를 가지는 확률분포 $x_{n} \sim p(x \mid \theta^{*})$에서 샘플링되고 각각 I.I.D 가정을 따른다고 하겠습니다. 그러면 추정량 $\delta: \mathcal{X}^{N} \rightarrow \Theta$가 일치 추정량(consistent estimator)라는 것은 $N \rightarrow \infty$가 될 수록 $\hat{\theta}(x) \rightarrow \theta^{*}$가 되는 것입니다. 즉, 데이터가 무한히 많아 질수록 추정값이 실제 참파라미터 $\theta^{*}$에 확률수렴(confergence in probability) 한다는 의미입니다. 참고로 이는 0-1 손실을 최소화하는 것과 동등합니다.
MLE는 가장 대표적인 일치 추정량입니다. 하지만, 모든 추정량이 일치추정량은 아니죠. 예를 들어보겠습니다. $\delta(x) = x_{N}$이라고 하는 어떤 추정량이 있다고 가정하겠습니다. 즉, 이는 마지막 샘플만을 고려하는 추정량이죠. 하지만, 이 추정량은 $\mathbb{E}[\delta(x)] = \mathbb{E}[x_{N}] = \mu$라서 불편향추정량이지만 샘플 크기 $N$이 커지도라도 분포가 고정된 값에 수렴하지 않아서 일치하지 않습니다.
하지만, 실제 상황에서는 이와 같이 일치 추정량인 경우가 많이 없습니다. 따라서, 실제에서는 모형과 데이터의 불일치를 최소화하는 추정량이 더 유용할 수 있죠. 이때, 대표적으로 KL 발산을 불일치 척도로 사용하게 된다면 결과적으로 저희가 얻는 추정량이 바로 MLE가 됩니다.