优化双雄 -- 最小平方法(OLS) vs. 最大概似法(MLE) , Part 2

前言

【上一篇】介绍了最小平方法(OLS),接下来,就来欣赏一下『最大概似法』(Maximum likelihood estimation, MLE),它是另一种估算参数值的方法,同样的,笔者会以图表的方式说明,让大家轻鬆地领略MLE的美妙之处。

其中,涉及数学证明,希望能以浅显的角度说明,如不够精準,还请不吝指正。

问题说明

同样是线性迴归的问题,如下图,我们希望找到迴归线的参数 -- 斜率(W)及偏差(b),上一篇求解的关键点是我们订定目标函数为『极小化误差』,在此前提下,以『最小平方法』(OLS) 可以找到了一组参数值,能达成目标:
http://img2.58codes.com/2024/20001976VvAUuh66cT.png
图片来源:tirthajyoti/Machine-Learning-with-Python

『最大概似法』(MLE) 它的出发点与『最小平方法』不一样,顾名思义,假设有三条迴归线如下图,MLE要找出有『最大可能』代表样本的一条线。
http://img2.58codes.com/2024/20001976kL8sLosKfG.png
图片来源:Probability concepts explained: Maximum likelihood estimation

又例如另一个问题,如下图,有一堆样本点(浅蓝色的圆点),它们『最大可能』是来自哪一种常态分配(f1、f2、f3或f4)。
http://img2.58codes.com/2024/20001976rU9Tt9sy2I.png
图片来源:Probability concepts explained: Maximum likelihood estimation

下面就来看看,以上题为例,MLE如何估算参数值。
首先介绍『常态分配』(Noraml Distribution)的机率分配函数如下:
http://img2.58codes.com/2024/20001976oXI2lacLBV.png

假设所有样本来自同一常态分配,且样本之间是相互独立的,这很重要,如果样本违反假设,以下的推论就是错的。

假设有三笔观察值,分别为 9, 9.5, 11,因为样本之间相互独立,故联合机率(joint probability)公式如下:

P(A∩B∩C) = P(A) x P(B) x P(C)

计算如下:
http://img2.58codes.com/2024/20001976NJoojsCWH1.png

通常有指数不好算,所以,等式两边各取log(两个数字经过Log运算,大者恆大,以此类推,故联合机率加log后,最大值时的参数值估算还是不变):
http://img2.58codes.com/2024/2000197662CsWCgOlJ.png

带入样本值,得到:
http://img2.58codes.com/2024/20001976upalFukbOF.png

对μ偏微分,一阶导数=0时有最大值,估算出参数μ=9.833:
http://img2.58codes.com/2024/20001976AZk7Bhd5RD.png

同样对标準差(σ)偏微分,就可估算出参数值σ。

线性迴归模型求解

y = βx + ξ

其中误差(ξ) 即符合假设『所有样本来自同一常态分配,且样本之间是相互独立的』,因此,
http://img2.58codes.com/2024/200019769CNsAfg2nZ.png

另一种应用 -- 集群(Clustering)

高斯混合模型(Gaussian mixture model, GMM),就是利用MLE,去推估每个样本最有可能属于某一常态分配,藉此达到分群(Clustering)的效果,如下图。
http://img2.58codes.com/2024/20001976DNoOcs8Sgp.png
图片来源:Gaussian Mixture Models Explained

结论

有人说『最小平方法』是『最大概似法(MLE)』的一种特例,最大概似法(MLE)有更多的场景可以应用,你认为呢 ?


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章