色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何在15分鐘內(nèi)建立一個深度學(xué)習(xí)模型?

林子帆2年前12瀏覽0評論

謝邀!

如何利用CNNs建立計算機(jī)視覺模型?什么是現(xiàn)有的數(shù)據(jù)集?訓(xùn)練模型的方法有哪些?本文在嘗試?yán)斫庥嬎銠C(jī)視覺的最重要的概念的過程中,為現(xiàn)有的一些基本問題,提供了答案。

在機(jī)器學(xué)習(xí)中最熱門的領(lǐng)域之一是計算機(jī)視覺,它具有廣泛的應(yīng)用前景和巨大的潛力。它的發(fā)展目的是:復(fù)制人類視覺的強(qiáng)大能力。但是如何通過算法來實現(xiàn)呢?

讓我們來看看構(gòu)建計算機(jī)視覺模型中,最重要的數(shù)據(jù)集以及方法。

現(xiàn)有的數(shù)據(jù)集

計算機(jī)視覺算法并不神奇。他們需要數(shù)據(jù)才能工作,并且它們只會與你輸入的數(shù)據(jù)的情況一樣。這些是收集正確數(shù)據(jù)的不同來源,具體還是要取決于任務(wù):

ImageNet是最龐大且最著名的數(shù)據(jù)集之一,它是一個現(xiàn)成的數(shù)據(jù)集,包含1400萬幅圖像,使用WordNet概念手工注釋。在整個數(shù)據(jù)集中,100萬幅圖像包含邊界框注釋。

帶有對象屬性注釋的ImageNet圖像。圖片來源

另一個著名的例子是MicrosoftCOCO(CommonObjectsinContex,常見物體圖像識別)的DataSet,它包含了32.8萬張圖片,其中包括91種對象類型,這些對象類型很容易被識別,總共有250萬個標(biāo)記實例。

來自COCO數(shù)據(jù)集的帶注釋圖像的示例

雖然沒有太多可用的數(shù)據(jù)集,但有幾個適合不同的任務(wù),

研究人員運(yùn)用了包含超過20萬名人頭像的CelebFacesAttributes數(shù)據(jù)集和超過300萬圖像的"臥室"室內(nèi)場景識別數(shù)據(jù)集(15,620幅室內(nèi)場景圖像);和植物圖像分析數(shù)據(jù)集(來自11個不同物種的100萬幅植物圖像)。

照片數(shù)據(jù)集,通過這些大量的數(shù)據(jù),不斷訓(xùn)練模型,使其結(jié)果不斷優(yōu)化。

一個總體戰(zhàn)略

深度學(xué)習(xí)方法和技術(shù)已經(jīng)深刻地改變了計算機(jī)視覺以及人工智能的其他領(lǐng)域,以至于在許多任務(wù)中,它的使用被認(rèn)為是標(biāo)準(zhǔn)的。特別是,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)超越了使用傳統(tǒng)計算機(jī)視覺技術(shù)的最先進(jìn)的技術(shù)成果。

這四個步驟概述了使用CNN建立計算機(jī)視覺模型的一般方法:

  1. 創(chuàng)建由帶注釋的圖像組成的數(shù)據(jù)集,或使用現(xiàn)有的數(shù)據(jù)集。注釋可以是圖像類別(用于分類問題)、邊界框和類(用于對象檢測問題)、或者是對圖像中感興趣的每個對象進(jìn)行像素級分割(對于實例分割問題)。
  2. 從每個圖像中提取與當(dāng)前任務(wù)相關(guān)的特性。這是問題建模的關(guān)鍵點。例如,用于識別人臉的特征,基于面部標(biāo)準(zhǔn)的特征,明顯不同于用于識別旅游景點或人體器官的特征。
  3. 訓(xùn)練一個基于特征分離的深度學(xué)習(xí)模型。訓(xùn)練意味著給機(jī)器學(xué)習(xí)模型提供許多圖像,它將根據(jù)這些特征學(xué)習(xí)如何解決手頭的任務(wù)。
  4. 使用訓(xùn)練階段沒有使用的圖像來評估模型。通過這樣做,可以測試訓(xùn)練模型的準(zhǔn)確性。
  5. 這個策略很基本,但可以很好地達(dá)到了目的。這種方法稱為監(jiān)督機(jī)器學(xué)習(xí),需要一個包含模型且必須學(xué)習(xí)的現(xiàn)象的數(shù)據(jù)集。

訓(xùn)練對象檢測模型

解決對象檢測挑戰(zhàn)的方法有很多種。在PaulViola和MichaelJones的論文《健壯實時對象檢測》(RobustReal-timeObjectDetection)中提出了普遍的方法。

論文傳送門:「鏈接」

雖然該方法可以訓(xùn)練用來檢測不同范圍的對象類,但其最初的目的是面部檢測。它是如此的快速和直接,并且它是在傻瓜相機(jī)中實現(xiàn)的算法,這也使得實時人臉檢測幾乎沒有處理能力。

該方法的核心特性是使用一組基于Haar特性的二進(jìn)制分類器進(jìn)行訓(xùn)練的。這些特征表示邊和線,在掃描圖像時非常容易計算。

Haarfeatures

雖然非常基本,但在特定的人臉情況下,這些特征允許捕獲重要的元素,如鼻子、嘴巴或眉毛之間的距離。它是一種監(jiān)督方法,需要識別對象類型的許多正例和反例。

基于CNN的方法

深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中一個真正的游戲規(guī)則改變者,特別是在計算機(jī)視覺領(lǐng)域中,基于深度學(xué)習(xí)的方法是許多常見任務(wù)的前沿。

在提出的各種實現(xiàn)目標(biāo)檢測的深度學(xué)習(xí)方法中,R-CNN(具有CNN特征的區(qū)域)特別容易理解。本文作者提出了三個階段的過程:

  • 使用區(qū)域建議方法提取可能的對象。
  • 使用CNN識別每個區(qū)域的特征。
  • 利用支持向量機(jī)對每個區(qū)域進(jìn)行分類。

R-CNNArchitecture.圖片來源

雖然R-CNN算法對于具體采用的區(qū)域建議方法是不可知的,但是在原著中選擇的區(qū)域建議的方法是選擇性搜索。步驟3非常重要,因為它減少了候選對象的數(shù)量,從而降低了方法的計算開銷。

這里提取的特征不如前面提到的Haar特征直觀。綜上所述,我們使用CNN從每個區(qū)域提案中提取4096維特征向量。考慮到CNN的性質(zhì),輸入必須始終具有相同的維度。這通常是CNN的弱點之一,不同的方法以不同的方式解決這個問題。對于R-CNN方法,經(jīng)過訓(xùn)練的CNN架構(gòu)需要輸入227×227像素去固定區(qū)域。由于提議的區(qū)域大小與此不同,作者的方法只是扭曲圖像,使其符合所需的尺寸。

與CNN所需的輸入維度匹配的扭曲圖像的示例

雖然取得了很好的效果,但是訓(xùn)練遇到了一些障礙,最終這種方法被其他人超越了。其中一些在文章中進(jìn)行了深入的回顧——《深度學(xué)習(xí)的對象檢測:權(quán)威指南》。

更多有關(guān)人工智能的資訊、深度報道、采訪AI中國,無論你是小白還是大神,你想要的這里都有!