안녕하세요. 지난 포스팅에서 기계학습 분야에서 왜 확률이라는 개념이 중요한 지에 대해서 설명을 드렸습니다. 오늘은 본격적으로 앞으로 공부할 때 필요한 핵심점인 개념들에 대해서 배워보도록 하겠습니다.
1. What is the Probability?
Probability theory is nothing but common sense reduced to calculation. — Pierre Laplace, 1812
일반적으로 우리는 공전한 동전을 기준으로 앞면이 나올 확률이 50%라고 말하는 데 익숙합니다. 하지만, 이 말이 무슨 의미일까요? 사실 이에는 두 가지의 서로 다른 해석이 있습니다.
- 빈도주의(Frequentist) 해석: 이 관점에서 확률은 여러 번 일어날 수 있는 '장기적 빈도(long run frequency)'를 의미합니다. 예를 들어, 위에서 말한 것처럼 동전을 여러 번 던졌을 때, 앞면이 나올 비율이 대략 절반 정도가 될 것이라는 뜻이죠.
- 베이즈(Bayes) 해석: 이 관점에서 확률은 어떤 일에 대한 우리의 불확실성이나 무지를 정량화하는 수단입니다. 즉, 반복시도와는 무관하게 '정보(information)'와 본질적으로 연관되어 있다는 것이죠. 베이즈 관점에서 앞서 말한 "동전이 앞면이 나올 확률이 50%"라는 것은, 다음에 동전을 던졌을 때 앞면이 나올지, 뒷면이 나올지 동일하게 가능성이 있다고 "믿는 것"입니다.
베이즈 해석이 제공하는 큰 장점 중 하나는, 장기적인 빈도가 존재하지 않는 일회성 사건(one-off event)에 대한 우리의 불확실성을 모델링할 수 있다는 점입니다. 예를 들어, 북극 빙하가 2030년까지 녹아버릴 확률을 계산하고 싶다고 합시다. 이 사건은 0번 혹은 1번 일어날 것이지, 여러 번 반복되는 일이 아닙니다. 그럼에도 불구하고 우리는 이 사건에 대한 불확실성을 얼마든지 수치로 나타낼 수 있어야 합니다. 이 사건이 일어날 확률이 얼마나 된다고 생각하느냐에 따라 이후에 설명할 최적의 행동 결정 방식을 적용할 수 있을 것입니다. 따라서 이 책에서는 베이즈 해석을 채택하고자 합니다. 다행히도, 어떤 관점을 채택하든 확률론의 기본 규칙은 동일합니다.
2. Types of Uncertainty
우리의 예측에서 발생하는 불확실성은 근본적으로 두 가지 다른 이유 때문에 생깁니다. 첫 번째는 우리가 데이터를 생성하는 기반이 되는 숨겨진 원인(hidden causes)이나 메커니즘을 완전히 알지 못한다는 무지(ignorance)에서 비롯됩니다. 이는 인식론(epistemology)에서 유래해 “에피스테믹 불확실성(epistemic uncertainty)”이라고 불립니다. 철학에서 ‘지식’에 대한 연구를 뜻하는 용어를 사용한 것이죠. 하지만 더 간단하게는 “모델 불확실성(model uncertainty)”이라 부를 수 있습니다.
두 번째 유형의 불확실성은 본질적으로 존재하는 변동성(variability)에서 비롯됩니다. 이는 더 많은 데이터를 수집해도 줄어들지 않으며, “알레아토릭 불확실성(aleatoric uncertainty)”이라고 부릅니다. 이는 라틴어로 “주사위(dice)”를 뜻하는 단어에서 유래했으며, “데이터 불확실성(data uncertainty)”이라는 더 단순한 용어로도 표현할 수 있습니다. 구체적인 예로, 공정한 동전을 던지는 상황을 생각해봅시다. 동전의 앞면이 나올 확률이 $p = 0.5$ 라는 것은 확실히 알고 있으니, 여기에 “에피스테믹 불확실성”은 없습니다. 하지만 결과를 완벽하게 예측할 수는 없습니다.
이 두 구분은 예를 들어 능동 학습(active learning)과 같은 응용 분야에서 중요한 의미를 가집니다. 전형적인 전략 중 하나는 $\mathbb{H} (p(y | \mathbf{x}, \mathcal{D}))$ (엔트로피) 값이 큰 예시들을 질의(query)하는 것입니다. 하지만 이렇게 엔트로피가 큰 이유가 매개변수에 대한 불확실성 ($\mathbb{H} (p(\theta | \mathcal{D}))$; Epistemic Uncertainty)이 큰 상황 때문인지, 아니면 단순히 결과 자체의 불가피한 변동성 ($\mathbb{H} (p(y | \mathbf{x}, \theta))$; Aleatoric Uncertainty) 때문인지에 따라 이야기는 달라집니다. 만약 후자라면, 샘플을 더 많이 수집하더라도 불확실성을 줄이는 데 별 소용이 없습니다.
3. Probability as an Extension of Logic
이번에는 부울(Boolean) 논리의 확장 개념으로 확률을 해석하는 관점을 따라, 확률론의 기본 규칙을 살펴봅니다.
3.1. Probability of an Event
이진 변수(binary variable) $A$로 표시되는 사건(event)이란, 세계의 어떤 상태가 성립하거나(참) 성립하지 않는(거짓) 것을 말합니다. 예를 들어 “내일 비가 올 것이다”나 “어제 비가 왔다”, “레이블이 $y = 1$이다”, “파라미터 $\theta$가 1.5와 2.0 사이에 있다” 등이 모두 사건에 해당합니다. 여기서, $\text{Pr}(A)$는 우리가 사건 $A$가 참일 것이라고 ‘믿는 정도’ 또는 사건 $A$가 발생할 장기적 비율를 나타냅니다. 여기서 $0 \le \text{Pr}(A) \le 1$은 반드시 만족해야합니다. $\text{Pr}(A) = 0$이라는 것은 해당 사건이 ‘절대 일어나지 않는다’는 뜻이고 $\text{Pr}(A) = 1$이라는 것은 ‘반드 일어난다’는 뜻입니다. 반대로 사건 $A$가 일어나지 않을 확률을 $\text{Pr}(\bar{A}) = 1 - \text{Pr}(A)$ 로 쓰고 정의됩니다.
3.2. Probability of a Conjunction of Two Events
방금은 하나의 사건이 일어나는 경우에만 살펴보았습니다. 하지만 현실세계에서는 훨씬 더 다양하고 많은 사건들이 동시다발적으로 발생하죠. 조금 단순화시켜 두 개의 사건이 일어나는 경우에 대해서 살아보도록 하겠습니다. 일반적으로 사건 $A$와 $B$가 동시에 일어날 확률인 결합확률(Joint Probability)은 다음과 같이 표기합니다.
$$\text{Pr} (A \wedge B) = \text{Pr} (A, B)$$
만약, 두 사건 $A$와 $B$가 서로 독립(Independence), 즉 서로 아무런 관련이 없다면 다음과 같이 쓸 수 있습니다.
$$\text{Pr} (A \wedge B) = \text{Pr} (A, B) = \text{Pr}(A)\text{Pr}(B)$$
예를 들어, $X$와 $Y$를 $\{ 1, 2, 3, 4 \}$에서 균일하게 무작위로 선택했다고 가정하겠습니다. 그러면 $A$를 $X \in \{1, 2\}$인 사건 그리고 $B$를 $Y \in \{3\}$인 사건으로 정의하면 각각의 확률은 $\text{Pr}(A) = \frac{1}{2}$이고 $\text{Pr}(B) = \frac{1}{4}$이며 두 사건은 서로 관계가 없으므로 독립이 되어 $\text{Pr}(A, B) = \text{Pr}(A)\text{Pr}(B) = \frac{1}{8}$이 됩니다.
3.3. Probability of a Union of Two Events
이번에는 사건 $A$ 또는 $B$가 일어날 확률은 보면 다음과 같습니다.
$$\text{Pr} (A \lor B) = \text{Pr} (A) + \text{Pr} (B) - \text{Pr}(A \wedge B)$$
만약, 두 사건이 상호 배타적(mutually exclusive)이라서 동시에 일어날 수 없다면 $\text{Pr}(A \lor B) = \text{Pr}(A) + \text{Pr}(B)$가 됩니다. 예를 들어, $X$를 $\{1, 2, 3, 4\}$에서 균일하게 무작위로 선택한다고 가정하고 $A$를 $X \in \{ 1, 2 \}$인 사건 그리고 $B$를 $X \in \{3\}$인 사건으로 정의하면 서로 상호배타적이므로 $\text{Pr} (A \lor B) = \text{Pr} (A) + \text{Pr} (B) = \frac{1}{2} + \frac{1}{4} = \frac{3}{4}$입니다.
3.4. Conditional Probability of One Event given Another Event
자 그렇다면 이미 어떤 사건 $A$가 발생했다고 가정해보겠습니다. 그 다음에 새로운 사건 $B$가 발생한다면 어떨까요? 이를 조건부 확률(Conditional Probability)이라고 하며 다음과 같이 정의합니다.
$$\text{Pr}(B | A) = \frac{\text{Pr}(A, B)}{\text{Pr}(A)}$$
여기서 $\text{Pr}(A) = 0$, 즉 사건 $A$가 전혀 발생하지 않는다면 조건부확률은 정의되지 않습니다.
3.5. Independence of Events
이때 $\text{Pr} (A, B) = \text{Pr}(A)\text{Pr}(B)$ 일 때 사건 $A$ 사건 $B$와 독립(independent)이라고 합니다.
3.6. Conditional Independence of Events
또한, $\text{Pr}(A, B | C) = \text{Pr}(A | C) \text{Pr}(B | C)$일 때 사건 $A$와 $B$가 사건 $C$에 대해서 조건부로 독립(conditionally independent)이라고 합니다. 이를 표기할 때는 $A \perp B | C$라고 씁니다. 보통 서로 의존적(dependent)이지만, 때로는 적절한 중간 변수를 조건으로 삼으면 독립적으로 만들 수 있습니다. 이에 대해서는 이 장의 뒷부분에서 좀 더 자세히 다루도록 하겠습니다.