如何使用主成分分析?
主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。
PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主成分,是重新構造出來的k維特征,而不是簡單地從n維特征中去除其余n-k維特征。
一、概念
協方差是衡量兩個變量同時變化的變化程度。PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主成分,是重新構造出來的k維特征,而不是簡單地從n維特征中去除其余n-k維特征。
協方差是衡量兩個變量同時變化的變化程度。協方差大于0表示x和y若一個增,另一個也增;小于0表示一個增,一個減。如果x和y是統計獨立的,那么二者之間的協方差就是0;但是協方差是0,并不能說明x和y是獨立的。協方差絕對值越大,兩者對彼此的影響越大,反之越小。協方差是沒有單位的量,因此,如果同樣的兩個變量所采用的量綱發生變化,它們的協方差也會產生樹枝上的變化。
協方差矩陣:
二、過程和舉例
1.特征中心化。即每一維的數據都減去該維的均值。這里的“維”指的就是一個特征(或屬性),變換之后每一維的均值都變成了0。
現在假設有一組數據如下:
2.每一列減去該列均值后,得到矩陣B,
3.求特征協方差矩陣,如果數據是3維,那么協方差矩陣是
這里只有x和y,求解得
4.計算協方差矩陣C的特征值和特征向量,得到
上面是兩個特征值,下面是對應的特征向量,特征值0.0490833989對應特征向量為,這里的特征向量都歸一化為單位向量。
5.將特征值按照從大到小的順序排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣。
這里特征值只有兩個,我們選擇其中最大的那個,這里是1.28402771,對應的特征向量是(-0.677873399, -0.735178656)T。
6.將樣本點投影到選取的特征向量上。假設樣例數為m,特征數為n,減去均值后的樣本矩陣為DataAdjust(m*n),協方差矩陣是n*n,選取的k個特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數據FinalData為
FinalData(10*1) = DataAdjust(10*2矩陣) x 特征向量(-0.677873399, -0.735178656)T
得到的結果是
這樣,就將原始樣例的n維特征變成了k維,這k維就是原始特征在k維上的投影。
上面的數據可以認為是learn和study特征融合為一個新的特征叫做LS特征,該特征基本上代表了這兩個特征。原本數據是10行2列*2行1列(取最大的特征值對應的特征向量)=10行1列的數據。
可以參考:http://www.cnblogs.com/zhangchaoyang/articles/2222048.html
三、總結
降維的目的:
1.減少預測變量的個數
2.確保這些變量是相互獨立的
3.提供一個框架來解釋結果
降維的方法有:主成分分析、因子分析、用戶自定義復合等。
PCA(Principal Component Analysis)不僅僅是對高維數據進行降維,更重要的是經過降維去除了噪聲,發現了數據中的模式。
PCA把原先的n個特征用數目更少的m個特征取代,新特征是舊特征的線性組合,這些線性組合最大化樣本方差,盡量使新的m個特征互不相關。從舊特征到新特征的映射捕獲數據中的固有變異性。