最大似然估计和贝叶斯估计

最大似然估计

概率分布是指X<x的概率,概率密度是对概率分布求导,它表示的意义就是X落在x附近的概率。

对于独立同分布的变量,联合概率密度就是各概率密度的乘积。

最大似然估计就是当发生了一件事,考虑参数t为何值时发生这件事的联合概率密度最大,即在已经得到实验结果的情况下,我们去寻找是这个结果出现的可能性最大的那个值,作为参数t的真的估计。参数是定的,只是未知。

举例:

假设罐子里白球的比例为P,黑球的比例1-P。在一百次的放回抽样中,取出的球70次是白球的概率为p( 70次是白球 | 抽100次球) 。现在抽出了70次白球这件事已经发生了,想知道P是多少。

我们的想法是在已经知道抽出70次白球的事实下,考虑使这个事件发生可能性最大的参数的值为P的值。

抽70次白球的联合概率密度 = p (第1次抽 | 抽100次) p (第2次抽 | 抽100次) p (第100次抽 | 抽100次)= p^70 (1-p) ^30

这个值什么时候最大呢,为了好算,可以先求log

70log p + 30log (1-p) 为了求左边值最大时p的值,对它求导,并令导数为0

70/p - 30/(1-p) = 0 求得 p = 0.7


贝叶斯估计

在贝叶斯统计中,先验概率分布,即关于某个变量 p 的概率分布,是在获得某些信息或者依据前,对 p 的不确定性进行猜测。例如, p 可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。

先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihood function)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。

贝叶斯估计把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化成后验概率密度,这样就可以用样本的信息修正对参数的初始估计值。

先假设某个模型的参数 t 符合某种分布,机器学习里我们关心的是 p ( t | D ),即给定训练数据D时参数 t 的分布成立的概率,这个称为后验概率。后验概率可以用先验概率乘以似然函数替换。

p ( t | D ) = p ( t ) p ( D | t ) / p ( D ) = p ( t ) p ( D | t )

因为已给定训练数据D,即 p (D) = 1.

举例:

bauesian personalized ranking 论文

其中:

0 Comments