참고자료: Mathematics for Machine Learning
Probability Mass Function: 이산 무작위 변수가 특정 값을 가질 확률을 나타내는 함수입니다.
$$P(X = x)$$
Cumulative Distribution Function: 무작위 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수입니다.
$$F_X(x) = P(X \le x) = \begin{cases} \sum_{x_i \le x} P(X = x_i) & \text{(이산형)} \ \int_{-\infty}^{x} f(t) , dt & \text{(연속형)} \end{cases}$$
Joint Distribution: 두 개 이상의 무작위 변수가 동시에 특정 값을 가질 확률분포입니다.
$$\text{이산형: } P(X = x, Y = y), \quad \text{연속형: } f(x, y) \quad \left(\text{단, } P(a \le X \le b, c \le Y \le d) = \int_{c}^{d} \int_{a}^{b} f(x, y) , dx dy\right)$$
Marginal Probability: 다른 변수의 값과 관계없이 하나의 특정 무작위 변수가 나타날 확률입니다.
$$\text{이산형: } P(X = x) = \sum_{y} P(X = x, Y = y), \quad \text{연속형: } f_X(x) = \int_{-\infty}^{\infty} f(x, y) , dy$$
Marginalization Property: 결합확률분포에서 관심 없는 특정 변수들을 모두 더하거나 적분하여 제거함으로써 원하는 변수의 주변확률분포를 구하는 성질입니다.
Conditional Probability: 특정 사건 $B$가 일어났다는 조건 하에 다른 사건 $A$가 발생할 확률을 의미합니다.
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)} \quad (\text{단, } P(B) > 0)$$
Borel Sigma Algebra: 위상공간의 모든 열린 집합들을 포함하는 가장 작은 시그마 대수를 의미합니다.
$$\mathcal{B}(X) = \sigma(\tau) \quad (\tau\text{는 위상공간 } X\text{의 열린 집합들의 모임})$$
Probability Density Function: 연속형 무작위 변수가 특정 값 근처의 무한소 구간에 속할 확률을 나타내는 함수로, 특정 구간에서 적분한 값이 해당 구간의 확률이 됩니다.
$$P(a \le X \le b) = \int_{a}^{b} f(x) , dx \quad \left(\text{단, } f(x) \ge 0, \int_{-\infty}^{\infty} f(x) , dx = 1\right)$$
Uniform Distribution: 특정 구간 내의 모든 점이 가질 확률이나 확률밀도가 완전히 동일하여 직사각형 형태를 띠는 분포입니다.
$$f(x) = \frac{1}{b-a} \quad (\text{단, } a \le x \le b)$$
Product Rule: 두 개 이상의 사건이 동시에 일어날 결합 확률을 조건부 확률과 조건이 되는 사건의 확률을 곱하여 구하는 법칙입니다.
$$P(A \cap B) = P(A \mid B)P(B) = P(B \mid A)P(A)$$
Bayes' Theorem: 새로운 증거를 바탕으로 기존의 믿음을 업데이트하여 사후 확률을 사전 확률과 우도의 곱을 통해 계산하는 법칙입니다.
$$P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}$$
Prior: 새로운 관측 데이터를 얻기 전, 관측되지 않은 잠재 변수에 대해 기존에 가지고 있던 주관적 지식이나 믿음을 나타내는 확률분포입니다.
$$p(\boldsymbol{x})$$
Likelihood: 관측되지 않은 잠재 변수의 값이 고정되어 있을 때, 관측 데이터가 나타날 확률 또는 확률밀도를 나타내는 함수입니다.
$$p(\boldsymbol{y} \mid \boldsymbol{x})$$
Posterior: 데이터를 관측한 후, 이를 바탕으로 업데이트된 잠재 변수에 대한 확률분포입니다.
$$p(\boldsymbol{x} \mid \boldsymbol{y}) = \frac{p(\boldsymbol{y} \mid \boldsymbol{x})p(\boldsymbol{x})}{p(\boldsymbol{y})}$$
Marginal Likelihood Evidence: 잠재 변수의 모든 가능한 값에 대해 우도와 사전 확률의 곱을 적분하여 얻어지며, 관측 데이터가 나타날 전체 확률을 의미합니다.
$$p(\boldsymbol{y}) = \int p(\boldsymbol{y} \mid \boldsymbol{x})p(\boldsymbol{x}) , d\boldsymbol{x}$$
Expected Value: 무작위 변수가 가질 수 있는 모든 값들의 확률 가중 평균으로, 무한히 반복했을 때 기대할 수 있는 평균적인 결과입니다.
$$\text{이산형: } \mathbb{E}[X] = \sum_{i} x_i P(X = x_i), \quad \text{연속형: } \mathbb{E}[X] = \int_{-\infty}^{\infty} x f(x) , dx$$
Mean: 기댓값과 동일한 개념으로, 데이터 분포의 중심 위치를 나타내는 대표적인 지표입니다.
$$\mu = \mathbb{E}[X]$$
Empirical Mean: 모집단 전체를 알 수 없을 때, 실제로 관측한 $N$개의 표본 데이터를 모두 더해 데이터의 개수로 나눈 산술 평균입니다.
$$\bar{x} = \frac{1}{N} \sum_{i=1}^{N} x_i$$
Median: 확률분포나 전체 관측값 중에서 정확히 가운데에 위치하는 값으로, 전체 확률의 $50%$가 이 값보다 작거나 같은 지점을 의미합니다.
$$P(X \le m) \ge 0.5 \text{ 이고 } P(X \ge m) \ge 0.5 \quad \left(\text{연속형: } \int_{-\infty}^{m} f(x) , dx = 0.5\right)$$
Mode: 확률분포에서 확률질량함수나 확률밀도함수가 최댓값을 가지는 위치로, 분포에서 가장 빈번하게 발생하는 값입니다.
$$\text{mode}(X) = \arg\max_{x} f(x)$$
Covariance: 두 무작위 변수 간의 선형 관계를 나타내는 척도로, 하나의 변수가 증가할 때 다른 변수가 증가하는지 또는 감소하는지를 보여줍니다.
$$\text{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)]$$
Pairwise Differences Representation of Variance: 분산을 평균으로부터의 편차 대신, 관측된 모든 표본 쌍 간의 제곱 차이로 변형하여 해석하는 방식입니다.
$$\frac{1}{N^2} \sum_{i,j=1}^{N} (x_i - x_j)^2 = 2 \left[ \frac{1}{N} \sum_{i=1}^{N} x_i^2 - \left( \frac{1}{N} \sum_{i=1}^{N} x_i \right)^2 \right] = 2 \cdot \text{Var}(X)$$
Covariance Matrix: 여러 무작위 변수들 사이의 분산(대각 성분)과 공분산(비대각 성분)을 행렬 형태로 정리한 것입니다.
$$\boldsymbol{\Sigma} = \mathbb{E}[(\boldsymbol{X} - \boldsymbol{\mu})(\boldsymbol{X} - \boldsymbol{\mu})^T] \quad (\Sigma_{ij} = \text{Cov}(X_i, X_j))$$
Empirical Covariance: 관측된 $N$개의 표본 데이터를 바탕으로 각 표본이 경험적 평균으로부터 떨어진 편차들의 곱을 평균 내어 계산한 공분산입니다.
$$\boldsymbol{Q} = \frac{1}{N} \sum_{i=1}^{N} (\boldsymbol{x}_i - \bar{\boldsymbol{x}})(\boldsymbol{x}_i - \bar{\boldsymbol{x}})^T$$
Variance: 무작위 변수가 기댓값(평균)으로부터 얼마나 멀리 흩어져 있는지를 나타내는 편차 제곱의 평균입니다.
$$\text{Var}(X) = \mathbb{E}[(X - \mu)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$$
Cross-Covariance: 두 개의 서로 다른 무작위 벡터 또는 시간대별 무작위 과정 간의 선형 의존성을 측정하는 척도입니다.
$$\text{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)^T]$$
Correlation: 두 무작위 변수 간의 선형적 연관성의 강도와 방향을 공분산을 각 표준편차로 나누어 정규화한 척도입니다.
$$\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \quad (\text{단, } -1 \le \rho_{X,Y} \le 1)$$
Mean Transformation: 무작위 변수에 선형 변환을 적용했을 때 변환된 변수의 기댓값을 구하는 성질입니다.
$$\mathbb{E}[\boldsymbol{A}\boldsymbol{x}+\boldsymbol{b}] = \boldsymbol{A}\mathbb{E}[\boldsymbol{x}]+\boldsymbol{b} = \boldsymbol{A}\boldsymbol{\mu}+\boldsymbol{b}$$
Covariance Transformation: 무작위 변수에 선형 변환을 적용했을 때 변환된 변수의 공분산을 구하는 성질입니다.
$$\text{Var}[\boldsymbol{A}\boldsymbol{x}+\boldsymbol{b}] = \boldsymbol{A}\text{Var}[\boldsymbol{x}]\boldsymbol{A}^T = \boldsymbol{A}\boldsymbol{\Sigma}\boldsymbol{A}^T \quad (\boldsymbol{\Sigma} = \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T] - \boldsymbol{\mu}\boldsymbol{\mu}^T)$$
Statistical Independence: 두 무작위 변수 간에 어떠한 연관성도 없어, 한 변수가 다른 변수의 확률분포에 영향을 주지 않는 상태를 의미합니다.
$$p(\boldsymbol{x}, \boldsymbol{y}) = p(\boldsymbol{x})p(\boldsymbol{y})$$$$\text{Var}[X + Y] = \text{Var}[X] + \text{Var}[Y], \quad \text{Cov}(X, Y) = 0$$
Independent and Identically Distributed: 확률 변수들이 서로 통계적으로 독립이며, 모두 동일한 확률분포를 따르는 상태를 의미합니다.
$$p(x_1, x_2, \dots, x_N) = \prod_{i=1}^{N} p(x_i)$$
Conditionally Independent: 특정 변수 $\boldsymbol{z}$가 주어졌을 때, 두 무작위 변수 $\boldsymbol{x}$와 $\boldsymbol{y}$가 서로의 확률분포에 아무런 영향을 주지 않는 상태입니다.
$$p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z}) = p(\boldsymbol{x} \mid \boldsymbol{z})p(\boldsymbol{y} \mid \boldsymbol{z})$$
Normal Distribution: 평균을 중심으로 대칭적인 종 모양(Bell-shaped)을 나타내는 연속 확률분포입니다.
$$f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)$$
Central Limit Theorem: 모집단의 확률분포 모양에 상관없이, 표본의 크기 $N$이 충분히 커지면 표본평균들의 분포가 정규분포에 가까워진다는 정리입니다.
$$\bar{X}_N \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{N}\right) \quad (\text{단, } N \to \infty)$$
Standard Normal Distribution: 평균이 $0$이고 표준편차가 $1$인 정규분포를 의미합니다.
$$f(x) = \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{x^2}{2} \right)$$
Conditional Gaussian Distribution: 다변량 가우시안 결합분포 $p(\boldsymbol{x}, \boldsymbol{y})$에서 하나의 변수 블록 $\boldsymbol{y}$가 관측값으로 주어졌을 때의 조건부 확률분포입니다.
$$p(\boldsymbol{x} \mid \boldsymbol{y}) = \mathcal{N}(\boldsymbol{\mu}_ {\boldsymbol{x}\mid\boldsymbol{y}}, \boldsymbol{\Sigma}_ {\boldsymbol{x}\mid\boldsymbol{y}})$$
$$\boldsymbol{\mu}_ {\boldsymbol{x}\mid\boldsymbol{y}} = \boldsymbol{\mu}_ {\boldsymbol{x}} + \boldsymbol{\Sigma}_ {\boldsymbol{x}\boldsymbol{y}}\boldsymbol{\Sigma}_ {\boldsymbol{y}\boldsymbol{y}}^{-1}(\boldsymbol{y} - \boldsymbol{\mu}_ {\boldsymbol{y}})$$
$$\boldsymbol{\Sigma}_ {\boldsymbol{x}\mid\boldsymbol{y}} = \boldsymbol{\Sigma}_ {\boldsymbol{x}\boldsymbol{x}} - \boldsymbol{\Sigma}_ {\boldsymbol{x}\boldsymbol{y}}\boldsymbol{\Sigma}_ {\boldsymbol{y}\boldsymbol{y}}^{-1}\boldsymbol{\Sigma}_ { \boldsymbol{y}\boldsymbol{x}}$$
Exponential Family: 확률밀도함수가 특정 형식의 지수 함수 요소를 바탕으로 인수분해될 수 있는 확률분포들의 클래스입니다.
$$p(\boldsymbol{x} \mid \boldsymbol{\theta}) = h(\boldsymbol{x}) \exp\left( \boldsymbol{\eta}(\boldsymbol{\theta})^T \boldsymbol{T}(\boldsymbol{x}) - A(\boldsymbol{\theta}) \right)$$
Bernoulli Distribution: 시행 결과가 오직 성공($1$) 또는 실패($0$) 두 가지 중 하나로만 나오는 무작위 실험을 모형화한 이산 확률분포입니다.
$$P(X = x) = p^x (1-p)^{1-x} \quad (\text{단, } x \in {0, 1})$$$$\mathbb{E}[X] = p, \quad \text{Var}(X) = p(1-p)$$
Binomial Distribution: 성공 확률이 $p$인 독립적인 베르누이 시행을 $n$번 반복했을 때의 성공 횟수가 따르는 이산 확률분포입니다.
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \quad (\text{단, } k \in {0, 1, \dots, n})$$$$\mathbb{E}[X] = np, \quad \text{Var}(X) = np(1-p)$$
Beta Distribution: $0$과 $1$ 사이의 닫힌 구간에서 정의되며 두 개의 양의 형상 파라미터 $\alpha$, $\beta$에 의해 결정되는 연속 확률분포입니다.
$$f(x) = \frac{1}{\text{B}(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1} \quad (\text{단, } 0 \le x \le 1)$$
$$\text{B}(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$$$$\mathbb{E}[X] = \frac{\alpha}{\alpha + \beta}, \quad \text{Var}(X) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}$$
Conjugate Prior: 베이지안 추론에서 사후분포가 사전분포와 동일한 확률분포 가족에 속하도록 만드는 사전분포입니다.
$$p(\theta \mid \mathcal{D}) \propto p(\mathcal{D} \mid \theta) p(\theta)$$
Conjugate: 통계학 및 베이지안 머신러닝에서 사전분포와 사후분포가 동일한 확률분포 가족에 속하게 되는 수학적 관계를 의미합니다.
$$p(\theta \mid \mathcal{D}) \propto p(\mathcal{D} \mid \theta) p(\theta)$$
Beta-Binomial Conjugacy: 이항 우도 함수와 베타 사전분포를 결합했을 때, 그 결과인 사후분포 역시 베타 분포를 따르게 되는 성질입니다.
$$p(\theta) = \text{Beta}(\alpha, \beta) \propto \theta^{\alpha-1} (1-\theta)^{\beta-1}$$$$p(x \mid \theta) = \text{Binomial}(n, x) \propto \theta^x (1-\theta)^{n-x}$$$$p(\theta \mid x) = \text{Beta}(\alpha + x, \beta + n - x)$$
Beta-Bernoulli Conjugacy: 베르누이 우도 함수와 베타 사전분포를 결합했을 때, 그 결과인 사후분포 역시 베타 분포를 따르게 되는 성질입니다.
$$p(\theta) = \text{Beta}(\alpha, \beta) \propto \theta^{\alpha-1} (1-\theta)^{\beta-1}$$$$p(x \mid \theta) = \text{Bernoulli}(x) = \theta^x (1-\theta)^{1-x}$$$$p(\theta \mid x) = \text{Beta}(\alpha + x, \beta + 1 - x)$$
Sufficient Statistic: 데이터셋의 파라미터에 대한 정보를 고스란히 보존하면서 데이터 크기를 효과적으로 줄이는 통계량입니다.
$$p(\boldsymbol{x} \mid \theta) = h(\boldsymbol{x}) g(T(\boldsymbol{x}), \theta)$$
Fisher-Neyman Factorization Theorem: 확률함수를 데이터 부분과 모수-통계량 부분으로 분해하여 어떤 통계량이 충분통계량인지를 판별하는 정리입니다.
$$p(\boldsymbol{x} \mid \theta) = h(\boldsymbol{x}) g(T(\boldsymbol{x}), \theta)$$
Log-Partition Function: 지수족 분포의 정규화 상수에 로그를 취한 함수로, 미분을 통해 분포의 충분통계량의 평균과 공분산을 얻을 수 있습니다.
$$A(\boldsymbol{\eta}) = \log \int h(\boldsymbol{x}) \exp(\boldsymbol{\eta}^T \boldsymbol{T}(\boldsymbol{x})) , d\boldsymbol{x}$$
$$\nabla_{\boldsymbol{\eta}} A(\boldsymbol{\eta}) = \mathbb{E}[\boldsymbol{T}(\boldsymbol{x})], \quad \nabla_{\boldsymbol{\eta}}^2 A(\boldsymbol{\eta}) = \text{Cov}[\boldsymbol{T}(\boldsymbol{x})]$$
Natural Parameter: 지수족 확률분포를 수식으로 나타낼 때 충분통계량과 선형 결합을 이루는 변환된 파라미터 벡터입니다.
$$p(\boldsymbol{x} \mid \boldsymbol{\eta}) = h(\boldsymbol{x}) \exp\left( \boldsymbol{\eta}^T \boldsymbol{T}(\boldsymbol{x}) - A(\boldsymbol{\eta}) \right) \quad \left(\text{베르누이 예시: } \eta = \log \left( \frac{p}{1-p} \right)\right)$$
Sigmoid Function: 임의의 실수를 $0$과 $1$ 사이의 값으로 매핑하는 S자 모양의 비선형 활성화 함수입니다.
$$\sigma(x) = \frac{1}{1 + e^{-x}} \quad \left(\text{미분: } \sigma'(x) = \sigma(x)(1 - \sigma(x))\right)$$