안녕하세요. 오늘은 확률론에 있어서 가장 자주 언급되고 활용되는 가우시안 분포(Gaussian Distribution) 또는 정규 분포(Normal Distribution)에 대해서 알아보도록 하겠습니다. 실수형 확률변수 $y \in \mathbb{R}$를 표현하는 데 가장 널리 쓰이는 분포는 가우시안 분포 또는 정규 분포입니다.
1. 누적분포함수(Cumulative Distribution Function; CDF)
연속형 확률분포 $Y$의 누적분포함수는 다음과 같이 정의됩니다. 이에 대한 자세한 내용은 Sec2.2 Random Variable에서 한번 설명드리기는 했으니 간단하게만 설명드리도록 하겠습니다.
$$P(y) = \text{Pr}(Y \le y)$$
즉, 확률변수 $Y$가 어떤 값 $y$ 이하일 확률을 나타냅니다. 여기서는 누적분포함수를 나타내기 위해 대문자 $P$를 사용하도록 하겠습니다. 이 누적분포함수를 이용하면, 확률변수가 특정 구간 내에 존재할 확률을 쉽게 구할 수 있습니다.
$$\text{Pr}(a < Y \le b) = P(b) - P(a)$$
누적분포함수는 항상 값이 증가하거나 일정한(절대 감소하지 않는) 함수입니다. 가우시안 분포는 누적분포함수는 다음과 같이 정의됩니다.
$$\Phi(y; \mu, \sigma^{2}) = \int_{-\infty}^{y} \mathcal{N}(z|\mu, \sigma^{2}) \; dz$$

여기서 $\mathcal{N}$은 평균 $\mu$ 그리고 분산 $\sigma^{2}$인 가우시안 분포의 확률밀도함수입니다. 가우시안 분포의 누적분포함수는 위의 그래프가 그 예시입니다. 이 함수는 실제 계산 시 다음과 같은 형태로 자주 구현됩니다:
$$\Phi(y; \mu, \sigma^{2})= \frac{1}{2} \left[ 1 + \text{erf}\left( \frac{z}{\sqrt{2}} \right) \right]$$
여기서 $z =\frac{y - \mu}{\sigma}$이고 $\text{erf}(u)$는 오차함수(error function)라고 불리며 다음과 같이 정의됩니다.
$$\text{erf}(u) = \frac{2}{\sqrt{\pi}} \int_{0}^{u} e^{-t^{2}} \; dt$$
가우시안 분포의 각 매개변수를 좀 더 자세히 보도록 하겠습니다.
- 매개변수 $\mu$는 분포의 평균(mean)을 나타내며, 가우시안 분포의 경우 평균은 최빈값(mode)과 같습니다.
- 매개변수 $\sigma^{2}$는 분포의 분산(variance)을 나타냅니다.
- 때로는 분산의 역수인 정밀도(precision) $\lambda = \frac{1}{\sigma^{2}}$으로 표현하기도 합니다.
이때, 평균이 0이고 표준편차가 1인 가우시안 분포 ($\mu = 0, \sigma= 1$)를 표준 정규분포(Standard Normal Distribution)라고 합니다.
1.1 역누적분포함수(Inverse CDF)와 분위수(Quantile)
누적분포함수를 $P$라고 하면 이 함수의 역함수 $P^{-1}(q) = y_{q}$를 만족하는 $y_{q}$로 정의되며 여기서 $\text{Pr}(Y \le y_{q}) = q$입니다. 즉, $P^{-1}(q)$는 전체 확률의 $q$만큼을 왼족에 두는 점을 의미하며, 이를 분포 분위수(quantile)라고 부릅니다.
- $P^{-1}(0.5)$는 중앙값(median)으로 전체 확률이 왼쪽과 오른쪽에 각각 절반씩 나눠지게 됩니다.
- $P^{-1}(0.25)$와 $P^{-1}(0.75)$는 각각 하위 25% 및 상위 75%에 해당하는 하위 사분위수(lower quantile)와 상위 사분위수(upper quantile)가 됩니다.
예를 들어, 표준정규분포 $\mathcal{N}(0, 1)$의 누적분포함수를 $\Phi$, 그 역함수를 $\Phi^{-1}$라고 하면 그림에서 볼 수 있듯이 $\Phi^{-1}(\frac{\alpha}{2})$의 왼쪽 영역에 전체 확률의 $\frac{\alpha}{2}$가 존재하게 됩니다. 이때, 가우시안 분포의 대칭성으로 인해 $\Phi^{-1}(1 - \frac{\alpha}{2})$의 오른쪽 영역에도 전체 확률의 $\frac{\alpha}{2}$가 존재합니다. 따라서 중앙에 위치한 구간 $\left( \Phi^{-1}\left( \frac{\alpha}{2} \right), \Phi^{-1}\left( 1 - \frac{\alpha}{2} \right) \right)$는 전체확률에서 $1 - \alpha$만큼을 포함하게 됩니다. 특히, $\alpha = 0.05$로 정하면 중앙의 95% 구간은 다음과 같은 범위가 됩니다.
$$\left( \Phi^{-1}(0.025), \Phi^{-1}(0.975) \right) = (-1.96, 1.96)$$
일반적인 가우시안 분포 $\mathcal{N}(\mu, \sigma^{2})$이라고 하면 95% 구간은 다음과 같습니다.
$$(\mu - 1.96\sigma, \mu + 1.96\sigma)$$
이값을 흔히 간편하게 $\mu \pm 2\sigma$로 근사하여 사용하기도 합니다.
2. 확률밀도함수(Probability Density Function; PDF)
확률밀도함수는 앞서 설명한 누적분포함수(CDF)의 미분인 $p(y) = \frac{d}{dy} P(y)$로 정의됩니다. 즉, 누적분포함수를 미분하면 확률밀도함수가 됩니다. 가우시안 분포의 확률밀도함수는 다음과 같은 형태입니다.
$$\mathcal{N}(y | \mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \text{exp} \left( -\frac{(y - \mu)^{2}}{2\sigma^{2}} \right) = \phi(y; \mu, \sigma^{2})$$
여기서 $\sqrt{2\pi\sigma^{2}}$ 는 확률밀도함수를 전체 영역에 대해 적분했을 때 결과가 1이 되도록 하는 정규화 상수(normalization constant)입니다. (특히, 평균이 0이고 분산 1인 가우시안 분포는 표준 정규분포라고 부르며 이때의 밀도함수는 간단히 $\phi(y)$로 표현됩니다.) 확률밀도함수를 이용하면 연속형 확률변수 $Y$가 어떤 구간에 존재할 확률을 다음과 같이 구할 수 있습니다.
$$\text{Pr}(a < Y \le b) = \int_{a}^{b} p(y) \; dy = P(b) - P(a)$$
이때 구간이 매우 작아지면, 다음과 같이 근사할 수 있습니다:
$$\text{Pr}(y \le Y \le y + dy) \approx p(y)dy$$
이 식의 의미는, 확률변수 $Y$가 작은 구간 $[y, y + dy]$에 존재할 확률이 대략 해당 지점의 밀도값 $p(y)$에 구간의 길이 $dy$를 곱한 값과 비슷하다는 것 입니다. 중요한 점은, 확률밀도함수의 특정 지점에서의 값은 1보다 클 수도 있다는 점입니다. 예를 들어, 가우시안 분포 $\mathcal{N}(0, 0.1)$의 경우 $y = 0$에서의 밀도값은 약 3.99로 1보다 큽니다. 확률이 아니라 "밀도"이기 때문입니다. 밀도는 확률이 아니라 확률을 나타내는 함수이며 밀도의 적분값이 확률을 의미합니다.
2.1 평균(기대값)의 계산
확률밀도함수를 사용하면 분포의 평균(기대값, expected value)을 계산할 수 있습니다:
$$\mathbf{E}[Y] = \int_{\mathcal{Y}} yp(y) \; dy$$
특히 가우시안 분포의 평균은 $\mathbb{E}[\mathcal{N}(\cdot|\mu, \sigma^{2})] = \mu$로 나오게 됩니다. 하지만, 일부 다른 분포의 경우 위 적분값이 무한대로 발산하여 평균이 정의되지 않는 경우도 있습니다.
2.2 분산과 표준편차의 계산
확률밀도함수를 이용하면 분포의 분산(variance)도 계산할 수 있습니다. 분산은 분포가 평균 주위로 얼마나 퍼져 있는지("spread")를 측정하는 값입니다. 보통 분산을 $\sigma^{2}$로 표시하며, 다음과 같이 정의됩니다.
$$\begin{align} \mathbb{V}[Y] &= \mathbb{E}[(Y - \mu)^{2}] \\ &= \int (y - \mu)^{2} p(y) \; dy \\ &= \int y^{2}p(y) \; dy + \mu^{2} \int p(y) \; dy - 2\mu \int yp(y) \; dy \\ &= \mathbb{E}[Y^{2}] - \mu^{2} \end{align}$$
이로부터 다음의 유용한 관계식을 얻을 수 있습니다:
$$\mathbb{E}[Y^{2}] = \sigma^{2} + \mu^{2}$$
분산의 제곱근은 표준편차(standard deviation)라고 하며 다음과 같이 정의합니다:
$$\text{std}[Y] = \sqrt{\mathbb{V}[Y]} = \sigma$$
표준편차는 분산보다 해석하기 쉽고 직관적입니다. 표준편차는 확률변수 $Y$ 와 같은 단위를 가지기 때문입니다.
특히 가우시안 분포의 경우, 표준편차는 친숙한 다음과 같은 결과가 됩니다:
$$\text{std}[\mathcal{N}(\cdot|\mu, \sigma^{2})] = \sigma$$
3 회귀(Regression)

지금까지 우리는 조건이 없는 가우시안 분포(unconditional Gaussian distribution)에 대해 살펴보았습니다. 하지만 실제 상황에서는 가우시안 분포의 평균과 분산을 특정 입력변수(input)에 따라 달라지도록 모델링하는 것이 유용할 수 있습니다. 즉, 입력변수 $x$가 주어졋을 때 조건부 밀도모델(conditional density model)을 다음과 같이 나타내는 것입니다:
$$p(y|\mathbf{x}; \mathbf{\theta}) = \mathcal{N}(y|f_{\mu}(\mathbf{x}; \mathbf{\theta}), f_{\sigma}(\mathbf{x}; \mathbf{\theta})^{2})$$
여기서 $f_{\mu}(\mathbf{x}; \mathbf{\theta}) \in \mathbb{R}$과 $f_{\sigma}(\mathbf{x}; \mathbf{\theta})^{2} \in \mathbb{R}_{+}$S는 각각 입력변수 $\mathbf{x}$로부터 평균과 분산을 각각 예측하는 함수입니다.
3.1 등분산 회귀(Homoscedastic Regression)
실제로는 흔히 분산이 입력변수와 관계없이 고정된 값이라고 가정합니다. 이런 방식을 등분산 회귀(homoscedastic regression)라고 합니다. 추가로 평균을 입력변수에 대한 선형 함수로 가정하는 경우가 많은데, 이 모델을 **선형 회귀(linear regression)**라고 부릅니다. 이때 조건부 확률밀도는 다음과 같은 형태를 가집니다:
$$p(y|\mathbf{x}; \mathbf{\theta}) = \mathcal{N}(y|\mathbf{w}^{T}\mathbf{x} + b, \sigma^{2})$$
여기서 매개변수 $\theta = (\mathbf{w}, b, \sigma^{2})$입니다. 이러한 1차원 선형회귀 모델을 시각화한 예시는 그림 2.14.(a)에 나타나 있으며, 선형회귀 모델에 관한 자세한 설명은 향후에 더 자세히 다루도록 하겠습니다.
3.2 이분산 회귀(Heteroskedastic Regression)
그러나, 분산 역시 입력변수에 따라 달라질 수 있습니다. 이를 이분산 회귀(heteroskedastic regression)라고 합니다. 이때는 평균과 분산 모두 입력에 따라 선형적으로 변한다고 가정하며, 조건부 확률밀도함수는 다음과 같습니다:
$$p(y|\mathbf{x}; \mathbf{\theta}) = \mathcal{N}(y|\mathbf{w}^{T}_{\mu}\mathbf{x} + b, \sigma_{+}(\mathbf{w}^{T}_{\sigma}\mathbf{x}))$$
여기서 $\theta = (\mathbf{w}_{\mu}, \mathbf{w}_{\sigma})$는 각각 평균과 분사의 회귀계수이며 $\sigma_{+}(a) = \log(1 + e^{a})$는 softplus 함수로서, 어떤 실수 값 $a$를 양후 $\mathbb{R}_{+}$로 변환하는 역할을 합니다. 즉, 예측된 표준편차가 항상 양수가 되도록 보장합니다. 이 모델의 일차원 예시는 그림 2.14.(b)에 나타나 있습니다.
3.3 예측구간과 불확실성
그림 2.14에서 나타난 점선 구간은 예측된 값의 95% 예측구간 $[\mu(x) - 2\sigma(x), \mu(x) + 2\sigma(x)]$입니다. 이 구간은 주어진 데이터 $x$에 대해 관측값 $y$가 얼마나 변할지에 대한 불확실성을 나타내며 실제 데이터(파란색 점)의 퍼짐 정도를 잘 표현합니다. 반면, 노이즈가 없는 근본적인 함수 $f_{\mu}(\mathbf{x}; \mathbf{\theta})$ 자체의 불확실성은 $\sqrt{\mathbb{V}[f_{\mu}(\mathbf{x}; \mathbf{\theta})]}$으로 표현됩니다. 이 불확실성은 관측값 $y$의 노이즈를 나타내는 $\sigma$가 아니라 매개변수 $\theta$ 자체의 불확실성을 나타내는 것입니다. 즉, 매개변수가 가진 불확실성은 관측값의 불확실성과는 구분되는 개념입니다. 매개변수 불확실성을 어떻게 모델링할 수 있는지는 향후에 자세히 다루도록 하겠습니다.
4. 가우시안(정규) 분포는 왜 널리 사용될까?
가우시안 분포(Gaussian distribution, 또는 정규분포)는 통계학과 머신러닝 분야에서 가장 널리 사용되는 확률분포입니다. 이렇게 널리 사용되는 데는 몇 가지 중요한 이유가 있습니다.
- 해석하기 쉬운 두 가지 매개변수 (평균과 분산): 첫째, 가우시안 분포는 **평균(mean)**과 **분산(variance)**이라는 두 가지 매개변수(parameter)로만 정의됩니다. 이 두 값은 확률분포의 가장 기본적이고 중요한 특성을 간단하고 직관적으로 나타낼 수 있습니다. 즉, 평균 $\mu$는 분포의 중심(위치)를 잘 나타내고 분산 $\sigma^{2}$는 분포가 중심에서 얼마나 퍼져 있는지(폭)를 나타냅니다. 이 두 가지 매개변수는 해석이 매우 쉽기 때문에 실무에서도 선호됩니다.
- 중심극한정리(Central Limit Theorem)에 따른 자연스러움: 둘째, 가우시안 분포는 중심극한정리 덕분에 자주 사용됩니다. 중심극한정리에 따르면, 서로 독립적인 여러 개의 확률변수의 합은 그 각각이 어떤 분포를 따르든지 상관없이, 일정한 조건 하에서 그 합이 근사적으로 가우시안 분포를 따르게 됩니다. 이러한 특성 덕분에 가우시안 분포는 주로 잔차(residual)나 노이즈(noise)를 모델링하는 데 자연스럽고 적절한 선택이 됩니다. 실제로 많은 측정 오차나 무작위 잡음이 있는 데이터는 가우시안 분포로 잘 근사됩니다.
-최대 엔트로피(Maximum Entropy) 특성으로 인한 일반성: 셋째, 가우시안 분포는 정해진 평균과 분산이라는 조건 아래에서 가장 적은 가정을 하는 분포, 즉 최대 엔트로피(maximum entropy)를 갖는 분포입니다. 이 특성 때문에 가우시안 분포는 특별한 정보가 부족하거나 명확한 가정을 하기 어려운 경우의 "기본 선택(default choice)"으로 자주 사용됩니다.
-단순한 수학적 형태와 편리한 구현: 마지막으로, 가우시안 분포는 수학적으로 매우 단순한 형태를 가지고 있습니다. 이로 인해 가우시안 분포를 활용한 방법들은 쉽게 구현할 수 있으면서도 매우 효과적인 결과를 낼 때가 많습니다.
4.1 역사적 배경과 명칭에 대한 참고
역사적으로 보면, 사실 ‘가우시안(Gaussian)’이라는 이름은 약간 오해의 소지가 있습니다. 왜냐하면, 통계학자 Jaynes가 언급한 바와 같이 이 분포의 핵심적인 특성들은 가우스(Gauss)가 불과 6살일 때 이미 라플라스(Laplace)에 의해 지적되었으며, 심지어 이 분포 자체는 라플라스보다도 훨씬 이전에 드무아브르(de Moivre)에 의해 발견되었기 때문입니다. 하지만 1800년대에 가우스가 이 분포를 널리 알려 과학과 공학 분야에서 지금까지 ‘가우시안’이라는 이름으로 널리 사용되게 되었습니다.
‘정규(normal)’라는 이름은 선형회귀에서의 정규방정식(normal equation)에서 비롯된 것으로 보입니다. 그러나 이 용어는 다른 분포들을 ‘비정상적(abnormal)’인 것처럼 오해하게 할 수 있으므로 피하는 것이 좋습니다. Jaynes는 오히려 가우시안 분포가 특별한 성질을 가진 "비정상적인(abnormal)" 분포라고 지적하기도 합니다. 이러한 역사적 배경을 알고 있으면, 가우시안 분포가 왜 이렇게 널리 사용되고, 왜 "정규분포"라는 용어가 널리 사용됨에도 불구하고 다소 부정확한지를 더 잘 이해할 수 있습니다.
5. 디랙 델타 함수(Dirac delta function) – 가우시안 분포의 극한
가우시안 분포의 분산(variance)이 점점 작아져 0에 가까워지면, 분포의 모양은 점점 좁아지면서 높이가 무한대로 높아지는, 아주 뾰족한 "스파이크(spike)" 모양이 됩니다. 결국, 무한히 좁으면서도 무한히 높은 하나의 점에서의 분포로 수렴하게 됩니다. 이를 수학적으로 표현하면 다음과 같습니다:
$$\lim_{\sigma \rightarrow 0} \mathcal{N}(y | \mu, \sigma^{2}) \rightarrow \delta(y - \mu)$$
이 때 사용되는 함수 $\delta(\cdot)$를 디랙 델타 함수(Dirac delta function)라고 하며, $x = 0$이라면 $\delta(x) = \infty$이고 $x \neq 0$이라면 $\delta(x) = 0$이고 $\int_{-\infty}^{\infty} \delta(x) \; dx = 1$로 전체 구간에서 적분하면 항상 1이라는 특이한 성질을 갖습니다.
5.1 약간 변형된 형태의 델타 함수
델타 함수는 일반적으로 특정 점 $y$에서 무한히 큰 값을 갖고 그 외에는 0인 형태로 $x = y$이라면 $\delta_{y}(x) = \infty$이고 $x \neq y$이라면 $\delta_{y}(x) = 0$이고 $\int_{-\infty}^{\infty} \delta_{y}(x) \; dx = 1$로 $\delta_{y}(x) = \delta(x - y)$로 표현할 수 있습니다. 델타 함수는 다음과 같은 매우 유용한 걸러내기(sifting) 성질을 가지고 있습니다. 이 성질은 향후 여러 곳에서 자주 활용됩니다:
$$\int_{-\infty}^{\infty} f(y) \delta(x - y) \; dy = f(x)$$
이 식의 의미는, 함수 $f(y)$에 델타함수 $\delta(x - y)$ 를 곱한 뒤 전체 영역에서 적분하면, 결국 함수 $f$의 $y = x$ 지점에서의 값인 $f(x)$ 만 남게 된다는 것입니다. 즉, 델타 함수는 마치 "걸러내는 역할"을 하여 특정 지점의 값을 선택적으로 추출해주는 함수로 이해할 수 있습니다.
6. 절단된 가우시안 분포 (Truncated Gaussian distribution)
때로는 가우시안 분포의 범위를 특정 구간 $(a, b)$로 제한하는 것이 유용할 때가 있습니다. 이렇게 특정 구간 외부의 값은 허용하지 않고, 오직 구간 내부에서만 값을 가질 수 있도록 제한한 분포를 절단된(truncated) 가우시안 분포라고 부릅니다. 이를 만드는 방법은 간단합니다. 가우시안 분포를 원하는 구간 $(a,b)$에서만 확률을 가지도록 다시 정규화(normalization)하면 됩니다. 절단된 가우시안 분포의 수학적 표현은 다음과 같습니다:
$$\mathcal{N}(x| \mu, \sigma^{2}, a, b) = \frac{\frac{1}{\sigma} \phi\left( \frac{x - \mu}{\sigma} \right)}{\Phi\left( \frac{b - \mu}{\sigma} \right) - \Phi\left( \frac{a - \mu}{\sigma} \right)}\mathbb{I}(a < x < b)$$
여기서 $\mu$와 $\sigma^{2}$은 각각 분포의 평균과 분산입니다. 그리고 $\phi(z)$와 $\Phi(z)$는 각각 표준정규분포의 확률밀도함수(PDF)와 누적분포함수(CDF)로 정의됩니다. 즉, 분모에 있는 값은 구간 $(a, b)$ 안에서의 확률이 정확히 1이 되도록 전체 확률을 재조정하는 역할을 합니다. 예를 들어, 아래쪽 경계를 0으로 두고 상한을 무한대로 두면 오직 양수 영역에서만 정의된 절단 가우시안 분포가 만들어집니다:
$$\mathcal{N}(x|\mu, \sigma^{2}, 0, \infty) = \frac{\frac{1}{\sigma} \phi\left( \frac{x - \mu}{\sigma} \right)}{1 - \Phi \left( \frac{-\mu}{\sigma} \right)} \mathbb{I}(x > 0)$$
이 경우, 결과적으로 음수 값은 절대로 나올 수 없는 분포가 됩니다. 이처럼 절단된 가우시안 분포는 특정 문제 상황에서 변수의 값이 현실적으로 제한된 범위에서만 의미를 가질 때 유용하게 사용될 수 있습니다.