前言
【上一篇】介绍了最小平方法(OLS),接下来,就来欣赏一下『最大概似法』(Maximum likelihood estimation, MLE),它是另一种估算参数值的方法,同样的,笔者会以图表的方式说明,让大家轻鬆地领略MLE的美妙之处。
其中,涉及数学证明,希望能以浅显的角度说明,如不够精準,还请不吝指正。
问题说明
同样是线性迴归的问题,如下图,我们希望找到迴归线的参数 -- 斜率(W)及偏差(b),上一篇求解的关键点是我们订定目标函数为『极小化误差』,在此前提下,以『最小平方法』(OLS) 可以找到了一组参数值,能达成目标:
图片来源:tirthajyoti/Machine-Learning-with-Python
『最大概似法』(MLE) 它的出发点与『最小平方法』不一样,顾名思义,假设有三条迴归线如下图,MLE要找出有『最大可能』代表样本的一条线。
图片来源:Probability concepts explained: Maximum likelihood estimation
又例如另一个问题,如下图,有一堆样本点(浅蓝色的圆点),它们『最大可能』是来自哪一种常态分配(f1、f2、f3或f4)。
图片来源:Probability concepts explained: Maximum likelihood estimation
下面就来看看,以上题为例,MLE如何估算参数值。
首先介绍『常态分配』(Noraml Distribution)的机率分配函数如下:
假设所有样本来自同一常态分配,且样本之间是相互独立的,这很重要,如果样本违反假设,以下的推论就是错的。
假设有三笔观察值,分别为 9, 9.5, 11,因为样本之间相互独立,故联合机率(joint probability)公式如下:
P(A∩B∩C) = P(A) x P(B) x P(C)
计算如下:
通常有指数不好算,所以,等式两边各取log(两个数字经过Log运算,大者恆大,以此类推,故联合机率加log后,最大值时的参数值估算还是不变):
带入样本值,得到:
对μ偏微分,一阶导数=0时有最大值,估算出参数μ=9.833:
同样对标準差(σ)偏微分,就可估算出参数值σ。
线性迴归模型求解
y = βx + ξ
其中误差(ξ) 即符合假设『所有样本来自同一常态分配,且样本之间是相互独立的』,因此,
另一种应用 -- 集群(Clustering)
高斯混合模型(Gaussian mixture model, GMM),就是利用MLE,去推估每个样本最有可能属于某一常态分配,藉此达到分群(Clustering)的效果,如下图。
图片来源:Gaussian Mixture Models Explained
结论
有人说『最小平方法』是『最大概似法(MLE)』的一种特例,最大概似法(MLE)有更多的场景可以应用,你认为呢 ?