在統計學中,最大似然估計(MLE)是一種估計給定觀察的統計模型參數的方法,方法是找到使給定參數的觀察的可能性最大化的參數值。MLE可以看作是最大后驗估計(MAP)的一種特殊情況,它假設參數的先驗分布是均勻的,或者是MAP的一種變體,它忽略了先驗,因此是非正則化的。
最大似然估計是一種確定模型參數值的方法。找到參數值使得它們最大化模型描述的過程產生實際觀察到的數據的可能性。上面的定義可能聽起來有點神秘,所以讓我們通過一個例子來幫助理解這一點。
假設我們從某個過程中觀察到了10個數據點。例如,每個數據點可以表示學生回答特定考試問題所需的時間長度(以秒為單位)。這10個數據點如下圖所示
我們首先必須決定我們認為哪種模型最能描述生成數據的過程。這部分非常重要。至少,我們應該對使用哪種模型有一個很好的了解。這通常來自于擁有一些領域專業知識,但我們不會在這里討論。對于這些數據,我們假設數據生成過程可以用高斯(正態)分布充分描述。目測上圖表明高斯分布是合理的,因為10個點中的大部分都聚集在中間,很少有點散布在左右兩側。(僅使用10個數據點即時做出此類決定是不明智的,但考慮到我生成了這些數據點,我們將采用它)。回想一下,高斯分布有2個參數。平均值μ和標準偏差σ。這些參數的不同值會產生不同的曲線(就像上面的直線一樣)。我們想知道哪條曲線最有可能產生我們觀察到的數據點?(見下圖)。最大似然估計是一種方法,它將找到μ和σ的值,從而生成最適合數據的曲線。
生成數據的真實分布是f1~N(10,2.25),也就是上圖中的藍色曲線。