網(wǎng)站導(dǎo)航

如何學(xué)習(xí)使用支持向量機(jī)SVM

如何學(xué)習(xí)使用支持向量機(jī)SVM？

本文將嘗試對 SVMs 的工作方式進(jìn)行更高層次的理解。我將更專注于培養(yǎng)直覺理解而不是嚴(yán)密性。這意味著會盡可能跳過數(shù)學(xué)細(xì)節(jié)而建立其工作方式的理論的直觀理解。

自從Statsbot團(tuán)隊發(fā)表了關(guān)于time series anomaly detection, （時間序列的異常檢測）的文章之后，很多讀者要求我們介紹支持向量機(jī)方法。是時候滿足你們的要求了，我將在不使用高深數(shù)學(xué)的前提下向你們介紹 SVM，分享有用的程序庫和資源幫助你們?nèi)腴T。

如果你曾經(jīng)使用機(jī)器學(xué)習(xí)進(jìn)行分類，應(yīng)該會聽說支持向量機(jī)（SVM）。這個算法的歷史已經(jīng)有五十出頭，它們隨著時間不斷在進(jìn)化，并適應(yīng)于各種其它問題比如回歸，離群值分析和排序。

在很多深度學(xué)習(xí)開發(fā)者的武器庫中，SVMs 都是他們的至愛。在 [24]7，我們也將使用它們解決多個問題。我將更專注于培養(yǎng)直覺理解而不是嚴(yán)密性。這意味著我們會盡可能跳過數(shù)學(xué)細(xì)節(jié)而建立其工作方式的理論的直觀理解。

分類問題

假設(shè)你們的大學(xué)開設(shè)了一項機(jī)器學(xué)習(xí)課程，課程的講師發(fā)現(xiàn)那些擅長數(shù)學(xué)或者統(tǒng)計學(xué)的學(xué)生往往表現(xiàn)的最好。課程結(jié)束之后，他們記錄了注冊課程的學(xué)生的分?jǐn)?shù)。他們對每一個學(xué)生根據(jù)其在機(jī)器學(xué)習(xí)課程上的表現(xiàn)加上了一個標(biāo)簽：「好」或者「壞」。

現(xiàn)在，他們想要確定數(shù)學(xué)和統(tǒng)計學(xué)的得分與機(jī)器學(xué)習(xí)課程表現(xiàn)的關(guān)系。或許，根據(jù)他們的統(tǒng)計結(jié)果，他們會在學(xué)生注冊課程時加上一個前提條件限制。

他們會怎么做呢？首先把他們的數(shù)據(jù)表示出來，我們可以畫一個二維圖，一個坐標(biāo)軸表示數(shù)學(xué)成績，另一個表示統(tǒng)計學(xué)成績。每個學(xué)生的具體成績作為一個點(diǎn)在圖中表示。

點(diǎn)的顏色（綠色或者紅色）表示學(xué)生在機(jī)器學(xué)習(xí)課程中的表現(xiàn)：「好」或者「壞」。將圖畫出來的話應(yīng)該是這樣的：

當(dāng)一個學(xué)生要求注冊課程的時候，講師將會要求她提供數(shù)學(xué)和統(tǒng)計學(xué)的成績。根據(jù)他們已有的數(shù)據(jù)，他們將對她在機(jī)器學(xué)習(xí)課程上的表現(xiàn)作出合理的猜測。我們真正想要的是一類以「分?jǐn)?shù)多元組」的形式饋送（math_score,stats_score）的算法。這個算法能告訴你一個學(xué)生在圖中是以一個紅點(diǎn)還是一個綠點(diǎn)表示（紅/綠可理解為類別或者標(biāo)記）。當(dāng)然，這個算法已經(jīng)以某種方式包含了訓(xùn)練數(shù)據(jù)的特征。

在這個案例中，一個好的算法將能尋找在紅色和綠色群集之間的分界線，然后確定一個分?jǐn)?shù)多元組將依賴于哪一側(cè)。我們選擇綠色方或者紅色方的其中一側(cè)作為她在這項課程中最可能的表現(xiàn)水平的標(biāo)志。

這條線稱為分界線（因為它將不同標(biāo)記的群集分離開來）或者分類器（我們用它來將點(diǎn)集分類）。圖中展示了這個問題中可能的兩個分類器。

好分類器 vs 壞分類器

有一個很有趣的問題：以上兩條線都將紅色和綠色的點(diǎn)群集分離開來。有什么合理依據(jù)能讓我們選擇其中一個而舍棄另一個嗎？

要注意一個分類器的價值并不在于它能將訓(xùn)練數(shù)據(jù)分離的多好。我們最終是希望它能將尚未見過的數(shù)據(jù)分離（即測試數(shù)據(jù)）。因此我們需要選擇能捕捉訓(xùn)練數(shù)據(jù)的普遍模式的那條線，而這條線更可能在測試數(shù)據(jù)中表現(xiàn)的更好。

以上所示的第一條線看起來有些許偏差，其下半部分看起來過于接近紅點(diǎn)群集，其上半部分過于接近綠點(diǎn)群集。當(dāng)然它確實(shí)很完美的將訓(xùn)練數(shù)據(jù)分離開來，但是如果在測試數(shù)據(jù)中遇到了有一個點(diǎn)離群集稍遠(yuǎn)的情況，它很有可能會將其加上錯誤的標(biāo)記。

而第二的點(diǎn)就沒有這樣的問題。例如，下圖中用兩個分類器分離方塊點(diǎn)群集的表現(xiàn)的結(jié)果展示。

第二條線在正確分離訓(xùn)練數(shù)據(jù)的同時也盡可能的遠(yuǎn)離兩個群集。處于兩個群集的正中間位置能降低犯錯的風(fēng)險，可以說，這給了每一個類的數(shù)據(jù)分布更多的擺動空間，因此它能更好的泛化到測試數(shù)據(jù)中。

SVMs 試圖尋找第二類分界線。原來我們只是通過目測選擇更好的分類器，但實(shí)際上為了在一般案例中應(yīng)用，我們需要將其隱含原理定義的更加精確。以下將簡要說明 SVMs 是如何工作的：

1. 尋找能準(zhǔn)確分離訓(xùn)練數(shù)據(jù)的分界線；

2. 在所有這些分界線中選擇能最大化與最近鄰點(diǎn)的距離的分界線。

那些定義了這條分界線的最近鄰點(diǎn)被稱作支持向量。而分界線周圍的區(qū)域被定義為邊緣。

下圖展示了支持向量和對應(yīng)的第二條分界線：黑色邊界的點(diǎn)（有兩個）和邊緣（陰影區(qū)域）。

支持向量機(jī)提供了一個方法在多個分類器中尋找能更準(zhǔn)確的分離測試數(shù)據(jù)的分類器。

雖然上圖中的分界線和數(shù)據(jù)是處于二維空間的，但是必須注意 SVMs 實(shí)際上能在任何維度的數(shù)據(jù)中工作，在這些維度中，它們尋找的是二維空間分界線的類似結(jié)構(gòu)。

比如，在三維空間中它們尋找的是一個分界面（后面將簡要提到），在更高維空間中它們尋找的是一個分界超平面-即將二維分界線和三維分界面推廣到任意維度的結(jié)構(gòu)。

一個可以被分界線（或者在普遍意義上，一個分界超平面）被稱作線性可分?jǐn)?shù)據(jù)。分界超平面被稱作線性分類器。

容錯性

我們在最后一節(jié)來看一個完美線性可分?jǐn)?shù)據(jù)的簡單例子，雖然現(xiàn)實(shí)中的數(shù)據(jù)通常是很凌亂的。你也很可能經(jīng)常遇到一些不能正確線性分類的例子。

這里展示了一個這樣的例子：

很顯然，使用一個線性分類器通常都無法完美的將標(biāo)簽分離，但我們也不想將其完全拋棄不用，畢竟除了幾個錯點(diǎn)它基本上能很好的解決問題。那么 SVMs 會如何處理這個問題呢？SVMs 允許你明確規(guī)定允許多少個錯點(diǎn)出現(xiàn)。你可以在 SVM 中設(shè)定一個參數(shù)「C」；從而你可以在兩種結(jié)果中權(quán)衡：

1. 擁有很寬的邊緣；

2. 精確分離訓(xùn)練數(shù)據(jù)；

C 的值越大，意味著在訓(xùn)練數(shù)據(jù)中允許的錯點(diǎn)越少。

必需強(qiáng)調(diào)一下這是一個權(quán)衡的過程。如果想要更好的分類訓(xùn)練數(shù)據(jù)，那么代價就是邊緣會更寬。以下幾個圖展示了在不同的 C 值中分類器和邊緣的變化（未顯示支持向量）。

注意分界線隨 C 值增大而傾斜的方式。在更大的 C 值中，它嘗試將右下角的紅點(diǎn)盡可能的分離出來。但也許我們并不希望在測試數(shù)據(jù)中也這么做。第一張圖中 C=0.01，看起來更好的抓住了普遍的趨勢，雖然跟更大的 C 值相比，它犧牲了精確性。

考慮到這是一個權(quán)衡方法，需要注意邊緣如何隨著 C 值的增大而縮小。

在之前的例子中，邊緣內(nèi)是不允許任何錯點(diǎn)的存在的。在這里我們看到，同時擁有好的分離邊界和沒有錯點(diǎn)的邊緣是基本不可能的。

由于現(xiàn)實(shí)世界中的數(shù)據(jù)幾乎不可能精確的分離，確定一個合適的 C 值很重要且很有實(shí)際意義，經(jīng)常出現(xiàn)這樣的需求。我們往往使用交叉驗證選擇合適的 C 值。

非線性可分?jǐn)?shù)據(jù)

我們已經(jīng)介紹過支持向量機(jī)如何處理完美或者接近完美線性可分?jǐn)?shù)據(jù)，那對于那些明確的非線性可分?jǐn)?shù)據(jù)，SVMs 又是怎么處理的呢？畢竟有很多現(xiàn)實(shí)世界的數(shù)據(jù)都是這一類型的。當(dāng)然，尋找一個分界超平面已經(jīng)行不通了，這反而突出了 SVMs 對這種任務(wù)有多擅長。

這里有一個關(guān)于非線性可分?jǐn)?shù)據(jù)的例子（這是著名的 XOR dataset 的變體），圖中展示了線性分類器 SVMs 的結(jié)果：

這樣的結(jié)果并不怎么樣，在訓(xùn)練數(shù)據(jù)中只能得到 75% 的準(zhǔn)確率，這是使用分界線能得到的最好結(jié)果。此外，分界線和一些數(shù)據(jù)點(diǎn)過于接近，甚至將一些點(diǎn)分割開來。

我們需要做的更好。

現(xiàn)在輪到我最喜歡的 SVMs 的部分登場了。我們目前擁有：一項擅長尋找分界超平面的技術(shù)，以及無法線性分離的數(shù)據(jù)。那么怎么辦？

當(dāng)然是，將數(shù)據(jù)投射到另一個空間中使其線性可分然后尋找分界超平面！

我會一步一步的詳細(xì)介紹這個想法。

仍然從上圖中的數(shù)據(jù)集為例，然后將其投射到三維空間中，其中新的坐標(biāo)為：

下圖中展示了投射數(shù)據(jù)的表示，你發(fā)現(xiàn)了能塞進(jìn)一個平面的地方了嗎？

讓我們開始在上面運(yùn)行 SVMs：

Bingo！標(biāo)簽分離很完美，接下來將平面投射回初始的二維空間中看看分離界面是什么樣子的：

在訓(xùn)練數(shù)據(jù)中得到了 100% 的準(zhǔn)確率，而且分離邊界并不會過于接近數(shù)據(jù)點(diǎn)，太棒了！

初始空間中的分離邊界的形狀依賴于投射的形式。在投射空間中，分離邊界通常是一個超平面。

要記住，投射數(shù)據(jù)的最主要的目的是為了使用 SVMs 尋找分界超平面的超能力。

當(dāng)將分界超平面映射回初始空間時，分離邊界不再是一條線了，邊緣和支持向量也變得不同。根據(jù)視覺直覺，它們在投射空間的形態(tài)是很好理解的。

看看它們在投射空間中的樣子，再看看在初始空間。3D 邊緣（為了避免視覺混亂，沒有加上陰影）是分界超平面之間的區(qū)域。

在投射空間中有 4 個支持向量，這很合理，它們分布在兩個平面上以確定邊緣。在初始空間中，它們依然在邊緣上，但是看起來數(shù)量并不足以確定邊緣。

讓我們回過頭分析一下：

1. 如何確定要將數(shù)據(jù)投射到什么樣的空間？

我之前已經(jīng)很明確的提過-在某個地方出現(xiàn)了根號 2！

在這個例子中，我想展示一下向高維空間投射的過程，因此我選了一個很具體的投射。一般而言，這是很難確定的。不過，多虧了 over』s theorem，我們能確定的是通過將數(shù)據(jù)投射到高維空間確實(shí)更可能使數(shù)據(jù)線性可分。

2. 所以我要做的就是投射數(shù)據(jù)然后運(yùn)行 SVM？

不是。為了使上述例子更好理解，我解釋的好像我們需要先將數(shù)據(jù)投射。如果你自行將數(shù)據(jù)投射，你要怎么表征無窮維空間呢？看起來 SVMs 很擅長這個，是時候看看算法的內(nèi)核了。

內(nèi)核

最終還是這個獨(dú)家秘方才使得 SVMs 有了打標(biāo)簽的能力。在這里我們需要討論一些數(shù)學(xué)。

讓我們盤查一下目前我們所見過的：

1. 對于線性可分?jǐn)?shù)據(jù) SVMs 工作的非常出色。

2. 對于幾乎線性可分?jǐn)?shù)據(jù)，只要只用正確的 C 值，SVMs 仍然可以工作的很好。

3. 對于非線性可分?jǐn)?shù)據(jù)，可以將數(shù)據(jù)投射到另一個空間使數(shù)據(jù)變得完美或者幾乎完美線性可分，將問題回歸到了 1 或者 2。

首先，讓我們稍微離題一會。

SVMs 的一個非常令人驚喜的方面是，其所有使用的數(shù)學(xué)機(jī)構(gòu)，如精確的投射，甚至是空間的維度，都沒有顯式表示出來。你可以根據(jù)數(shù)據(jù)點(diǎn)（以向量表示）的點(diǎn)積將所有的數(shù)學(xué)寫出來。例如 P 維的向量 i 和 j，第一個下標(biāo)區(qū)分?jǐn)?shù)據(jù)點(diǎn)，第二個下標(biāo)表示維度：

點(diǎn)積的定義如下：

如果數(shù)據(jù)集中有 n 個點(diǎn)，SVM 只需要將所有點(diǎn)兩兩配對的點(diǎn)積以尋找分類器。僅此而已。當(dāng)我們需要將數(shù)據(jù)投射到高維空間的時候也是這樣，不需要向 SVM 提供準(zhǔn)確的投射，而是提供投射空間中所有點(diǎn)兩兩配對的點(diǎn)積。

重提一下我們之前做過的投射，看看能不能找到相關(guān)的內(nèi)核。同時我們也會跟蹤投射的計算量，然后尋找點(diǎn)積，看看相比之下，內(nèi)核是怎么工作的。

對于任意一個點(diǎn) i：

其對應(yīng)的投射點(diǎn)的坐標(biāo)為：

我們需要進(jìn)行以下操作以完成投射：

得到新坐標(biāo)的第一個維度：1 次乘法

第二個維度：1 次乘法

第三個維度：2 次乘法

加起來總共是 1+1+2=4 次乘法

在新坐標(biāo)中的點(diǎn)積是：

為了計算兩個點(diǎn) i 和 j 的點(diǎn)積，我們需要先計算它們的投射。因此總共是 4+4=8 次乘法，然后點(diǎn)積的計算包含了 3 次乘法和 2 次加法。

總計為，

乘法：8（投射）+3（點(diǎn)積）=11 次乘法

加法：2 次（點(diǎn)積之間）

總數(shù)為 11+2=13 次計算

而以下這個內(nèi)核函數(shù)將給出相同的結(jié)果：

首先在初始空間中計算向量的點(diǎn)積，然后將結(jié)果進(jìn)行平方。

把式子展開然后看看是否正確：

確實(shí)是這樣。這個式子需要多少次計算呢？看看以上式子的第二步。在二維空間中計算點(diǎn)積只需要 2 次乘法和 1 次加法，平方運(yùn)算是另一次乘法。

因此，總計為：

乘法：2（初始空間的點(diǎn)積）+1（平方運(yùn)算）=3 次乘法

加法：1（初始空間的點(diǎn)積）

看起來使用內(nèi)核函數(shù)計算所需要的點(diǎn)積會更快。目前看來這似乎并不是什么重要的選擇：只不過是 4 次和 13 次的比較，但在輸入點(diǎn)處于高維度，而投射空間有更高的維度的情形中，大型數(shù)據(jù)集的計算所節(jié)省的計算量能大大加快訓(xùn)練的速度。因此使用內(nèi)核函數(shù)有相當(dāng)大的優(yōu)勢。

大部分 SVM 程序庫已經(jīng)經(jīng)過預(yù)包裝并包含了一些很受歡迎的內(nèi)核函數(shù)比如多項式，徑向基函數(shù)（RBF），以及 Sigmoid 函數(shù)。當(dāng)不使用投射的時候（比如文中第一個例子），我們就在初始空間中計算點(diǎn)積，我們之前提過，這叫做線性內(nèi)核。

很多內(nèi)核函數(shù)能提供額外的手段進(jìn)一步調(diào)整數(shù)據(jù)。比如，多項式內(nèi)核：

該多項式允許選擇 c 和 d（多項式的度）的值。在上述 3D 投射的例子中，我使用的值為 c=0，d=2。

但是內(nèi)核函數(shù)的優(yōu)點(diǎn)遠(yuǎn)遠(yuǎn)不止于此！

還記得我之前提到向無窮維空間投射的情況嗎？只需要知道正確的內(nèi)核函數(shù)就可以了。因此，我們并不需要將輸入數(shù)據(jù)投射，或者困惑無窮維空間的問題。

內(nèi)核函數(shù)就是為了計算當(dāng)數(shù)據(jù)確實(shí)被投射的時候，內(nèi)積的形式。

RBF 內(nèi)核函數(shù)通常在一些具體的無窮維投射問題中應(yīng)用。在這里我們不討論數(shù)學(xué)細(xì)節(jié)，但會在文末提到一些參考文獻(xiàn)。

如何在空間維度為無窮的情況計算點(diǎn)積呢？如果你覺得困惑，回想一下無窮序列的加法是如何計算的，相似的道理。雖然在內(nèi)積中有無窮個項，但是能利用一些公式將它們的和算出來。

這解答了我們前一節(jié)中提到的問題。總結(jié)一下：

1. 我們通常不會為數(shù)據(jù)定義一個特定的投射，而是從幾個可用的內(nèi)核函數(shù)中選擇，在某些例子中需要做一些參數(shù)調(diào)整，最后選出最適合數(shù)據(jù)的內(nèi)核函數(shù)。

2. 我們并不需要定義內(nèi)核函數(shù)或者自行將數(shù)據(jù)投射。

3. 如果有可用的內(nèi)核函數(shù)，使用它將使計算更快。

4.RBF 內(nèi)核函數(shù)可將數(shù)據(jù)投射到無窮維空間中。

SVM 程序庫

你可以在很多 SVM 程序庫中選擇以開始你的實(shí)驗：

libSVM

SVM—Light

SVMTorch

很多普適的機(jī)器學(xué)習(xí)程序庫比如 scikit-learn 也提供 SVM 模塊，通常在專用的 SVM 程序庫中封裝。我推薦使用經(jīng)驗證測試可行的 libSVM。

libSVM 通常是一個命令行工具，但下載包通常捆綁封裝了 Python，Java 和 MATLAB。只要將你的數(shù)據(jù)文件經(jīng) libSVM 格式化后（下載文件中 README 將解釋這一部分，以及其它可選項），就可以開始試驗了。

實(shí)際上，如果你想快速獲得不同內(nèi)核函數(shù)，不同 c 值等是如何影響分離邊界的理解，試試登陸「Graphical Interface」的 home page。在上面標(biāo)記幾類數(shù)據(jù)點(diǎn)，選擇 SVM 參數(shù)，然后運(yùn)行就可以了。

我很快去嘗試了一下：

我給 SVM 出了個難題。

然后我嘗試了幾個不同的內(nèi)核函數(shù)：

網(wǎng)站界面并沒有展示分離邊界，但會顯示 SVMs 判斷分類標(biāo)簽的結(jié)果。正如你所見，線性內(nèi)核函數(shù)完全忽略了紅點(diǎn)，認(rèn)為整個空間中只有黃點(diǎn)。而 RBF 內(nèi)核函數(shù)則完整的為紅點(diǎn)劃出了兩個圈！

上一篇騰訊華為等公司做軟件一般是用c語言還是java我看面試考的題目大部分是C語言和數(shù)據(jù)結(jié)構(gòu)

下一篇空數(shù)據(jù)庫是指什么

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

如何學(xué)習(xí)使用支持向量機(jī)SVM

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

如何學(xué)習(xí)使用支持向量機(jī)SVM

相關(guān)文章