極大似然估計公式?
極大似然估計
貝葉斯決策
首先來看貝葉斯分類,我們都知道經(jīng)典的貝葉斯公式:
其中:p(w):為先驗概率,表示每種類別分布的概率,P(X|W):類條件概率,表示在某種類別前提下,某事發(fā)生的概率;而P(W|X)為后驗概率,表示某事發(fā)生了,并且它屬于某一類別的概率,有了這個后驗概率,我們就可以對樣本進行分類。后驗概率越大,說明某事物屬于這個類別的可能性越大,我們越有理由把它歸到這個類別下。
我們來看一個直觀的例子:已知:在夏季,某公園男性穿涼鞋的概率為1/2,女性穿涼鞋的概率為2/3,并且該公園中男女比例通常為2:1,問題:若你在公園中隨機遇到一個穿涼鞋的人,請問他的性別為男性或女性的概率分別為多少?
從問題看,就是上面講的,某事發(fā)生了,它屬于某一類別的概率是多少?即后驗概率。
設(shè):
由已知可得:
男性和女性穿涼鞋相互獨立,所以
(若只考慮分類問題,只需要比較后驗概率的大小,的取值并不重要)。
由貝葉斯公式算出:
問題引出
但是在實際問題中并不都是這樣幸運的,我們能獲得的數(shù)據(jù)可能只有有限數(shù)目的樣本數(shù)據(jù),而先驗概率
和類條件概率(各類的總體分布)
都是未知的。根據(jù)僅有的樣本數(shù)據(jù)進行分類時,一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計,然后再套用貝葉斯分類器。
先驗概率的估計較簡單,1、每個樣本所屬的自然狀態(tài)都是已知的(有監(jiān)督學(xué)習(xí));2、依靠經(jīng)驗;3、用訓(xùn)練樣本中各類出現(xiàn)的頻率估計。
類條件概率的估計(非常難),原因包括:概率密度函數(shù)包含了一個隨機變量的全部信息;樣本數(shù)據(jù)可能不多;特征向量x的維度可能很大等等。總之要直接估計類條件概率的密度函數(shù)很難。解決的辦法就是,把估計完全未知的概率密度
轉(zhuǎn)化為估計參數(shù)。這里就將概率密度估計問題轉(zhuǎn)化為參數(shù)估計問題,極大似然估計就是一種參數(shù)估計方法。當(dāng)然了,概率密度函數(shù)的選取很重要,模型正確,在樣本區(qū)域無窮時,我們會得到較準(zhǔn)確的估計值,如果模型都錯了,那估計半天的參數(shù),肯定也沒啥意義了。
重要前提
上面說到,參數(shù)估計問題只是實際問題求解過程中的一種簡化方法(由于直接估計類條件概率密度函數(shù)很困難)。所以能夠使用極大似然估計方法的樣本必須需要滿足一些前提假設(shè)。
重要前提:訓(xùn)練樣本的分布能代表樣本的真實分布。每個樣本集中的樣本都是所謂獨立同分布的隨機變量 (iid條件),且有充分的訓(xùn)練樣本。
極大似然估計
極大似然估計的原理,用一張圖片來說明,如下圖所示:
總結(jié)起來,最大似然估計的目的就是:利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。
原理:極大似然估計是建立在極大似然原理的基礎(chǔ)上的一個統(tǒng)計方法,是概率論在統(tǒng)計學(xué)中的應(yīng)用。極大似然估計提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即:“模型已定,參數(shù)未知”。通過若干次試驗,觀察其結(jié)果,利用試驗結(jié)果得到某個參數(shù)值能夠使樣本出現(xiàn)的概率為最大,則稱為極大似然估計。
由于樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集D,來估計參數(shù)向量θ。記已知的樣本集為:
似然函數(shù)(linkehood function):聯(lián)合概率密度函數(shù)
稱為相對于
的θ的似然函數(shù)。
如果
是參數(shù)空間中能使似然函數(shù)
最大的θ值,則
應(yīng)該是“最可能”的參數(shù)值,那么
就是θ的極大似然估計量。它是樣本集的函數(shù),記作:
求解極大似然函數(shù)
ML估計:求使得出現(xiàn)該組樣本的概率最大的θ值。
實際中為了便于分析,定義了對數(shù)似然函數(shù):
1. 未知參數(shù)只有一個(θ為標(biāo)量)
在似然函數(shù)滿足連續(xù)、可微的正則條件下,極大似然估計量是下面微分方程的解:
2.未知參數(shù)有多個(θ為向量)
則θ可表示為具有S個分量的未知向量:
記梯度算子:
若似然函數(shù)滿足連續(xù)可導(dǎo)的條件,則最大似然估計量就是如下方程的解。
方程的解只是一個估計值,只有在樣本數(shù)趨于無限多的時候,它才會接近于真實值。
極大似然估計的例子
例1:設(shè)樣本服從正態(tài)分布
,則似然函數(shù)為:
它的對數(shù):
求導(dǎo),得方程組:
聯(lián)合解得:
似然方程有唯一解
:,而且它一定是最大值點,這是因為當(dāng)
或
時,非負函數(shù)
。于是U和
的極大似然估計為
。
例2:設(shè)樣本服從均勻分布[a, b]。則X的概率密度函數(shù):
對樣本
:
很顯然,L(a,b)作為a和b的二元函數(shù)是不連續(xù)的,這時不能用導(dǎo)數(shù)來求解。而必須從極大似然估計的定義出發(fā),求L(a,b)的最大值,為使L(a,b)達到最大,b-a應(yīng)該盡可能地小,但b又不能小于
,否則,L(a,b)=0。類似地a不能大過
,因此,a和b的極大似然估計:
總結(jié)
求最大似然估計量
的一般步驟:
(1)寫出似然函數(shù);
(2)對似然函數(shù)取對數(shù),并整理;
(3)求導(dǎo)數(shù);
(4)解似然方程。
最大似然估計的特點:
1.比其他估計方法更加簡單;
2.收斂性:無偏或者漸近無偏,當(dāng)樣本數(shù)目增加時,收斂性質(zhì)會更好;
3.如果假設(shè)的類條件概率模型正確,則通常能獲得較好的結(jié)果。但如果假設(shè)模型出現(xiàn)偏差,將導(dǎo)致非常差的估計結(jié)果。
用python實現(xiàn)簡單的極大似然估計,正正態(tài)分布為例:
代碼:
import numpy as np
import matplotlib.pyplot as plt
fig = plt.figure()
mu = 30 # mean of distribution
sigma = 2 # standard deviation of distribution
x = mu + sigma * np.random.randn(10000)
def mle(x):
'''
極大似然估計
:param x:
:return:
'''
u = np.mean(x)
return u, np.sqrt(np.dot(x - u, (x - u).T) / x.shape[0])
print(mle(x))
num_bins = 100
plt.hist(x, num_bins)
plt.show()