오늘 포스팅에서는 MVN을 기반으로한 선형 모델인 선형 가우시안 시스템(Linear Gaussian System; LGS)에 대해서 알아보도록 하겠스니다. 일단 모델을 가정하기 위해 잠재변수 $\mathbf{z} \in \mathbb{R}^{L}$이라고 하고 관측변수는 $\mathbf{y} \in \mathbb{R}^{D}$라고 하겠습니다. 그리고 추가적으로 이 변수들이 다음과 같은 관계식을 만족한다고 가정하겠습니다. $$\begin{cases} p(\mathbf{z}) &= \mathcal{N}(\mathbf{z}|\mu_{z}, \Sigma_{z}) \\ p(\mathbf{y}|\mathbf{z}) &= \mathcal{N}(\mathbf{y}|\mathbf{W}\mathbf{z} + \mathbf..
연속형 확률변수의 공동 확률분포 가운데 가장 널리 쓰이는 것은 다변량 가우시안 (Multivariate Gaussian, MVG) 또는 다변량 정규 분포(Multivariate Normal, MVN)입니다. 수학적으로 다루기 편리할 뿐 아니라, 실제 데이터에서도 “가우시안 가정”이 의외로 잘 맞는 경우가 많기 때문입니다. 1. 정의(Definition)다변량 정규분포의 PDF는 다음과 같이 정의됩니다. $$\mathcal{N}(\mathbf{y}|\mathbf{\mu}, \Sigma) = \frac{1}{(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp} \left[ -\frac{1}{2} (\mathbf{y} - \mathbf{\mu})^{T}\Sigma^..
1 공분산(Covariance)두 확률변수 $X$와 $Y$ 사이의 공분산은 두 변수가 서로 얼마나 선형적으로 관련되어 있는지를 나타내는 지표이며 다음과 같이 정의됩니다. $$\text{Cov}[X, Y] = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]$$ 이때, 공분산 $\text{Cov}[X, Y]$이 양수라면 둘이 함께 증가(양의 상관성을 가짐)하게 되고 음수라면 한쪽이 증가할 때 다른 쪽은 감소(음의 상관성을 가짐)지며 0이라면 선형적인 상관관계가 없음을 의미합니다. 1.1 고차원 벡터의 공분산 행렬$x$가 $D$차원 랜덤 벡터일 때 그 공분산 행렬은 다음과 같이 정의..
어떤 확률변수 $X$가 확률분포 $p(x)$를 따른다고 할 때, 이 확률변수에 특정한 결정적 변환(determistic transformation) $y = f(x)$를 적용하면 새로운 확률변수 $Y$가 만들어집니다. 오늘은 변환으로 새롭게 얻은 확률변수 $Y$의 확률분포 $p(y)$의 특성을 다루어보도록 하겠습니다. 1. 이산형 확률변수의 경우만약 $X$가 이산형 확률변수인 경우 새로운 확률변수 $Y = f(X)$의 PMF를 구해보겠습니다. 즉, $Y$가 특정한 값 $y$를 가질 확률 $p_{y}(y)$는 원래 확률변수 $X$의 값들 중에서 $f(x) = y$라는 조건을 만족하는 모든 $x$들의 확률을 합산하는 것과 동일하므로 다음과 같이 계산할 수 있습니다. $$p_{y}(y) = \sum_{x:..
1 스튜던트 $t$-분포(Student's $t$-distribution)일반적으로 많이 사용하는 가우시안 분표는 이상치(outlier)에 민감한 단점이 있습니다. 이에 비해 좀 더 이상치에 강건(robust)한 분포가 있는데, 그것이 바로 스튜던트 $t$-분포 (Student's $t$-distribution)입니다. 여기서는 간단히 "스튜던트 분포"라고 부르도록 하겠습니다. 스튜던트 분포의 PDF는 다음과 같은 형태로 표현됩니다. $$\mathcal{T}(y|\mu,\sigma^{2},\nu) \propto \left[ 1 + \frac{1}{\nu} \left( \frac{y - \nu}{\sigma} \right)^{2} \right]^{-\frac{\nu + 1}{2}}$$ 여기서 가우시안 ..
안녕하세요. 오늘은 확률론에 있어서 가장 자주 언급되고 활용되는 가우시안 분포(Gaussian Distribution) 또는 정규 분포(Normal Distribution)에 대해서 알아보도록 하겠습니다. 실수형 확률변수 $y \in \mathbb{R}$를 표현하는 데 가장 널리 쓰이는 분포는 가우시안 분포 또는 정규 분포입니다. 1. 누적분포함수(Cumulative Distribution Function; CDF)연속형 확률분포 $Y$의 누적분포함수는 다음과 같이 정의됩니다. 이에 대한 자세한 내용은 Sec2.2 Random Variable에서 한번 설명드리기는 했으니 간단하게만 설명드리도록 하겠습니다. $$P(y) = \text{Pr}(Y \le y)$$ 즉, 확률변수 $Y$가 어떤 값 $y$ 이..
어떤 변수가 유한한 개수의 범주(클래스, 레이블) 중 하나를 취할 때, 예를 들어 $y = \{ 1, 2, \dots, C \}$ 처럼 나타낼 수 있을 때, 이를 표현하기 위한 확률 분포로 범주형 분포(Categorical distribution)를 사용합니다. 1. 정의(Definition)범주형 분포는 일종의 이산 확률 분포로, 각 클래스마다 하나의 확률 파라미터를 가지고 있습니다. 이를 수식으로 표현하면 다음과 같습니다. $$\text{Cat}(y | \mathbf{\theta}) = \prod_{c = 1}^{C} \theta^{\mathbb{I}(y = c)}_{c}$$ 위 수식은 간단히 말해서, 특정 클래스 $c$가 선택될 확률이 $\theta_{c}$라는 의미힙니다. 즉, 클래스 $c$일 확..
1. 정의(Definition)아마 가장 간단한 확률분포 중 하나인 베르누이(Bernoulli) 분포는 이진(binary) 사건, 즉 두 가지 결과 중 하나만 나오는 사건을 모델링하는 데 사용됩니다. 동전 던지기를 예로 들어봅시다. 동전이 앞면이 나올 확률을 $0 \le \theta \le 1$이라고 하면, 동전이 앞면인 사건을 $Y = 1$ 그리고 뒷면인 사건을 $\theta = 0$으로 나타낼 수 있습니다. 이때 사건의 확률은 다음과 정의됩니다. - 앞면일 확률: $p(Y = 1) = \theta$- 뒷면일 확률: $p(Y = 0) = 1 - \theta$ 이것을 베르누이 분포(Beronoulli Distribution)이라고 하며 $Y \sim \text{Ber}(\theta)$로 표기합니다. ..