机器学习基础理论 - 频率派 vs 贝叶斯派
机器学习总述
文章目录
- 机器学习总述
- 1. 频率派 vs 贝叶斯派
- 频率派
- 贝叶斯派
- 2. 极大似然估计 vs 最大后验估计
- 1. 极大似然估计 - MLE
- 2. 最大后验估计 - MAP
- QA
- 1. 极大似然估计与最大后验概率的区别?
- 2. 概率与似然的区别
- 3. 贝叶斯派与频率学派的区别
1. 频率派 vs 贝叶斯派
对于有 n 个样本的样本集 X = ( x 1 , . . . , x n ) X = (x_1, ..., x_n) X=(x1,...,xn) 以及参数 θ \theta θ, 那么有 X X X 服从概率分布 $ P(x|\theta)$
频率派
频率派认为 θ \theta θ 是一个未知的常量, 数据 X X X 是一个随机变量,其服从一定的概率分布, 目的是通过极大似然估计 + 随机变量 X X X 来估计出未知参数 θ \theta θ 。
θ M L E = a r g m a x θ l o g P ( X ∣ θ ) \theta_{MLE} = argmax_{\theta} \,\, log P(X|\theta) θMLE=argmaxθlogP(X∣θ)
贝叶斯派
贝叶斯派认为 θ \theta θ 是一个随机变量,其服从一定的概率分布 p ( θ ) p(\theta) p(θ)。其采用最大后验估计来计算 P ( θ ∣ X ) P(\theta|X) P(θ∣X)。
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X | \theta) P(\theta)}{P(X)} P(θ∣X)=P(X)P(X∣θ)P(θ)
- 先验: P ( θ