오늘은 지수족(Exponential Family)라고 불리는 확률 분포 집합들을 알아보도록 하겠습니다. 지수족은 정규 분포, 이상 분포, 포아송 분포처럼 우리가 자주 접하는 다양한 분포를 하나의 통일된 수식으로 묶어서 설명하기 때문에 확률론 기반의 머신러닝에서 아주 중요한 역할을 수행합니다.
1. 정의(Definition)
먼저 지수족을 정의해보도록 하겠습니다. 확률변수 $y$가 취할 수 있는 영역을 $\mathcal{Y} \in \mathbb{R}^{D}$라고 하고 차원이 $K$인 파라미터 $\boldsymbol{\eta}\in\mathbb{R}^K$로 분포가 결정된다고 가정하겠습니다. 분포 $p(y\mid\boldsymbol{\eta})$가 지수족에 속한다는 것은 그 PDF 또는 PMF가 다음과 같이 작성할 수 있음을 의미합니다.
$$p(\mathbf{y} \mid \boldsymbol{\eta}) = \frac{1}{Z(\boldsymbol{\eta})} h(\mathbf{y}) \text{exp} \left[ \boldsymbol{\eta}^{T}\mathcal{T}(\mathbf{y}) \right] = h(\mathbf{y}) \text{exp} \left( \boldsymbol{\eta}^{T} \mathcal{T}(\mathbf{y}) - A(\boldsymbol{\eta}) \right)$$
처음보는 기호가 굉장히 많습니다! 하나씩 풀어서 설명해보도록 하죠.
- 기저측도(Base Measure) 또는 스케일 상수 (일반적으로 1로 고정) $h(\mathbf{y})$: 지수족 밀도를 정의할 때 "기준이 되는 척도(measure)"를 지정해야합니다. 연속형 자료에서는 보통 르베그(Lebesgue) 측도를 쓴다고 가정하므로 $h(\mathbf{y}) = 1$이 됩니다. ( 르베그 측도는 실해석학(Real Analysis)의 기초단계인 측도론(Measure Theory)에서 등장하는 용어로 자세히 설명하는 것은 범위에 벗어나므로 생략하고 "어떤 집합의 크기를 재는 방법" 정도로 이해하시면 될 거 같습니다. )
- 충분통계량(sufficient statistics) $\mathcal{T}(\mathbf{y}) \in \mathbb{R}^{K}$: 관측벡터 $\mathbf{y}$를 $K$차원으로 요약하는 함수입니다. MLE 또는 베이지안 추론에서 파라미터 $\boldsymbol{\eta}$가 데이터에 의존하는 유일한 연결통로가 바로 $\mathcal{T}(\mathbf{y})$입니다. 그런데 여기서 의문점이 생길 수 있습니다. 기존의 관측벡터 $\mathbf{y}$가 요약, 즉 압축되었는데도 불구하고 이후에 파라미터 $\boldsymbol{\eta}$를 추정하는 데 문제가 없을까요? 이는 Neyman–Fisher 정리에 의해 모델이 지수족이라면 $\mathcal{T}(\mathbf{y})$는 $\boldsymbol{\eta}$에 대한 충분통계량임이 자동으로 보장됩니다. 즉, 원시 측정데이터가 아닌 $\mathcal{T}(\mathbf{y})$만 알아도 파라미터 $\boldsymbol{\eta}$ 추정에는 문제가 없음을 보장해주죠.
- 자연 파라미터 (natural or canonical parameters) $\boldsymbol{\eta}$: 지수형식 $\text{exp} \left[ \boldsymbol{\eta} \mathcal{T}(\mathbf{y}) \right]$에서 선형 결합의 계수로 등장하는 파라미터 벡터입니다. $\boldsymbol{\eta}$는 선형성에 의해 다루기 쉽고 $\boldsymbol{\eta}$가 속하는 $\Omega = \{ \boldsymbol{\eta} \in \mathbb{R}^{K} \mid A(\boldsymbol{\eta}) < \infty \}$는 볼록집합이기 때문에 향후 최적화 문제에서 볼록최적화(Convex Optimization)을 그대로 활용할 수 있으므로 최적해가 항상 보장됩니. 또한, $\boldsymbol{\eta}$로 표현하면 충분통계량의 기댓값이 $\nabla_{\boldsymbol{\eta}} A(\boldsymbol{\eta})$의 닫힌 형태로 계산됩니다.
- 분배함수(partition function) $Z(\boldsymbol{\eta})$: 쉽게 말하면 정규화 상수이며 다음과 같이 정의됩니다.
$$Z(\boldsymbol{\eta}) = \int_{\mathcal{Y}^{D}} h(\mathbf{y}) \text{exp} \left[ \boldsymbol{\eta}^{T}\mathcal{T}{\mathbf{y}} \right] \; d\mathbf{y}$$
- 로그 분배함수(log partition function) $A(\boldsymbol{\eta})=\log Z(\boldsymbol{\eta})$: 볼록집합 $\Omega = \{ \boldsymbol{\eta} \in \mathbb{R}^{K} \mid A(\boldsymbol{\eta}) < \infty \}$에서 볼록함수로 전역 최적화가 용이하고 헤시안이 항상 양의 반정특입니다.
1.1 최소 지수족(Minimal Exponential Family)
지수족 중에서도 자연 파라미터 벡터 $\boldsymbol{\eta}$ 가운데 “쓸데없이 겹치는(선형 의존) 성분”이 하나도 남아 있지 않은 가장 압축된 형재의 지수족을 "최소 지수족"이라고 정의합니다. 이를 수학적으로 표현하면 지수족 $\mathcal{P}(p(\mathbf{y} \mid \boldsymbol{\eta}))$가 최소 지수족이라는 것은 널 공간 (Null Space) $\mathcal{N} = \{ \boldsymbol{\eta} \neq 0 | \boldsymbol{\eta}^{T} \mathcal{T}(\mathbf{y}) = 0, \forall \mathbf{y} \}$이 공집합인 것입니다.
보통 같은 분포를 여러 개의 자연 파라미터 $\boldsymbol{\eta}$로 표현하게 되면 MLE 또는 MAP 추정을 하게 되었을 때 무한히 많이 존재하게 됩니다. 하지만 최소 지수족으로 가정하게 된다면 1대1 대응이 생겨 답이 유일해지기 때문에 편리해집니다.
1.2 곡선 지수족(Curved Exponential Family), 정준형(Canonical Form), 자연 지수족(Natural Exponential Family; NEF)
최소 지수족 이외에도 다른 파라미터 $\boldsymbol{\phi}$를 사용해 $\boldsymbol{\eta}=f(\boldsymbol{\phi})$라 두면 다음과 같이 쓸 수 있습니다.
$$p(\mathbf{y} \mid \boldsymbol{\phi}) = h(\mathbf{y}) \text{exp} \left[ f(\boldsymbol{\phi})^{T} \mathcal{T}(\mathbf{y}) - A(f(\boldsymbol{\phi})) \right]$$
그러면 $f(\cdot)$의 종류에 따라 다양하게 정의됩니다.
- 곡선 지수족: $f$가 비선형이면 곡선 지수족이라 부릅니다.
- 정준형: $f(\boldsymbol{\phi})=\boldsymbol{\phi}$, 즉 $\boldsymbol{\eta}=\boldsymbol{\phi}$이면 정준형이라 합니다.
- 자연 지수족: 정준형이며 충분통계량 $T(y)$를 그대로 관측값 $y$로 두면 $p(\mathbf{y} \mid \boldsymbol{\eta}) = h(\mathbf{y}) \text{exp} \left[ \boldsymbol{\eta}^{T} \mathbf{y} - A(\boldsymbol{\eta}) \right]$라고 할 수 있죠. 이 형태를 자연 지수족이라 부릅니다.
2. 예시(Example)
이번에는 베르누이 분포를 예시로 들어서 지수족을 설명해보도록 하겠습니다. 확률변수 $y \in \{ 0, 1 \}$에 대해 평균(성공 확률)을 $\mu$라고 하면 PMF는 다음과 같죠.
$$\begin{align} \text{Ber}(y \mid \mu) &= \mu^{y}(1 - \mu)^{1 - y} \\ &= \text{exp}\left[ y\log(\mu) + (1 - y)\log(1 - \mu) \right] \\ &= \text{exp} \left[ \mathcal{T}(y)^{T} \eta \right] \end{align}$$
여기서 $\mathcal{T}(y) = \left[ \mathbb{I}(y = 1), \mathbb{I}(y = 0) \right]$ 그리고 $\boldsymbol{\eta} = \left[ \log(\mu), \log(1 - \mu) \right]$입니다. 하지만, 이렇게 작성하면 과완전(Over-Complete) 표현 문제가 발생합니다. 이 표현은 $\mathcal{T}(y)$의 두 성분이 항상 1의 합을 가지므로 이는 선형관계를 만족하기 때문에 다음과 같이 쓸 수 있습니다.
$$\mathbf{1}^{T}\mathcal{T}(y) = \mathbb{I}(y = 0) + \mathbb{I}(y = 1) = 1$$
이처럼 특징(feature) 간에 선형 의존성이 있으면 과완전이라 부르고, 이 경우 자연 파라미터 $\boldsymbol{\eta}$는 유일하게 결정되지 않습니다. 이를 위해 아까 설명드렸던 최소 지수족으로 다시 표현해보도록 하겠습니다. 즉, 모호성을 제거하여 충분통계량 $\mathcal{T}(\mathbf{y})$을 하나만 남기는 것이죠.
$$\text{Ber}(y \mid \mu) = \text{exp}\left[ y \log \left( \frac{\mu}{1 - \mu} \right) + \log (1 - \mu) \right]$$
이를 지수족 표준형에 맞추기 위해 다음과 같이 쓸 수 있습니다.
$$\begin{align} \eta &= \log\!\Bigl(\tfrac{\mu}{1-\mu}\Bigr), \\ T(y) &= y, \\ A(\eta) &= -\log(1-\mu)=\log\!\bigl(1+e^{\eta}\bigr), \\ h(y) &= 1. \end{align}$$
이때 자연 파라미터 $\eta$에서 원래 평균 $\mu$를 복원하고 싶다면 $\mu = \sigma(\eta) = \frac{1}{1 + e^{-\eta}}$, 즉 로지스틱(시그모이드) 함수를 취하면 됩니다.