深度學習的歷史可以追溯到1943年,當時WalterPitts和WarrenMcCulloch建立了基于人腦神經網絡的計算機模型。他們將算法和數學方法結合在一起,稱之為“閾值邏輯”,以模仿思維過程。自那時以來,深度學習一直在穩步發展,其發展只有兩個重大突破。兩者都與臭名昭著的人工智能冬天有關。
亨利·凱利(HenryJ.Kelley)因在1960年開發了連續反向傳播模型的基礎而受到贊譽。1962年,斯圖爾特·德雷福斯(StuartDreyfus)開發了僅基于鏈式規則的簡單版本。雖然反向傳播(為了訓練目的而向后傳播誤差)的概念在1960年代初確實存在,但它笨拙且效率低下,直到1985年才有用。
最早開發深度學習算法的工作是在1965年由AlexeyGrigoryevichIvakhnenko(開發了數據處理的分組方法)和ValentinGrigor?evichLapa(控制論與預測技術的作者)開發的。他們使用具有多項式(復雜方程式)激活函數的模型,然后進行統計分析。然后,從每一層將統計上最佳的功能轉發到下一層(緩慢的手動過程)。
在1970年代的第一個AI冬季開始,因為深度學習和AI研究無法兌現諾言,從而影響了資金投入研究。
福島邦彥使用了第一個“卷積神經網絡”。福島設計了具有多個池化和卷積層的神經網絡。1979年,他開發了一種名為Neocognitron的人工神經網絡,該網絡使用了分層的多層設計。這種設計使計算機能夠“學習”到視覺圖案。該網絡類似于現代版本,但是經過強化策略的反復循環激活訓練,隨著時間的推移,該策略逐漸增強。此外,福島的設計允許通過增加某些連接的“權重”來手動調整重要功能。
Neocognitron的許多概念繼續被使用。自上而下的連接和新的學習方法的使用已允許實現各種神經網絡。當同時顯示多個模式時,選擇性注意模型可以通過將注意力從一個模式轉移到另一個模式來分離和識別各個模式。(在多任務處理中,我們許多人使用相同的過程)?,F代的Neocognitron不僅可以識別信息缺失的圖案(例如,不完整的數字5),還可以通過添加信息缺失來完善圖像。這可以描述為“推斷”。
反向傳播,即在訓練深度學習模型中使用錯誤的方法,在1970年得到了顯著發展。那時SeppoLinnainmaa撰寫了他的碩士論文,其中包括用于反向傳播的FORTRAN代碼。不幸的是,直到1985年,該概念才應用于神經網絡。那時Rumelhart,Williams和Hinton證明了神經網絡中的反向傳播可以提供“有趣的”分布表示。從哲學上講,這一發現使人們認識到人類理解是依賴符號邏輯(計算主義)還是分布式表示(聯系主義)的認知心理學問題。1989年,YannLeCun在貝爾實驗室提供了反向傳播的第一個實際演示。他將卷積神經網絡與反向傳播結合到讀取的“手寫”數字上。該系統最終用于讀取手寫支票的數量。
這次也是第二個AI冬季(1985-90年代)開始的時候,這也影響了神經網絡和深度學習的研究。各種過于樂觀的人夸大了人工智能的“即時”潛力,超出了預期并激怒了投資者。憤怒如此強烈,“人工智能”一詞達到了偽科學的地位。幸運的是,一些人繼續從事AI和DL的研究,并取得了一些重大進展。1995年,DanaCortes和VladimirVapnik開發了支持向量機(一種用于映射和識別相似數據的系統)。SeppHochreiter和JuergenSchmidhuber于1997年開發了用于遞歸神經網絡的LSTM(長短期記憶)。
深度學習的下一個重要的進化步驟發生在1999年,那時計算機在處理數據方面開始變得更快,并且開發了GPU(圖形處理單元)。使用GPU處理圖片的處理速度更快,在10年的時間里將計算速度提高了1000倍。在此期間,神經網絡開始與支持向量機競爭。雖然與支持向量機相比,神經網絡的速度可能較慢,但使用相同的數據,神經網絡可以提供更好的結果。神經網絡還具有隨著添加更多訓練數據而持續改進的優勢。
在2000年左右,消失的梯度問題出現了。發現在較低層中形成的“功能”(課程)沒有被較高層學習,因為沒有學習信號到達這些層。這并不是所有神經網絡的根本問題,只是那些采用基于梯度的學習方法的神經網絡。問題的根源是某些激活功能。許多激活功能壓縮了它們的輸入,進而以某種混亂的方式減小了輸出范圍。這產生了在很小范圍內映射的大面積輸入。在這些輸入區域中,大的變化將減小為輸出的小變化,從而導致梯度消失。用于解決此問題的兩個解決方案是逐層預訓練和長短期記憶的開發。
2001年,METAGroup(現稱為Gartner)的一份研究報告將他在數據增長方面的挑戰和機遇描述為三維的。該報告描述了隨著數據源和類型范圍的增加,數據量的增加和數據速度的增加。這是為了為即將開始的大數據沖擊做準備。
2009年,斯坦福大學AI教授李飛飛創建了ImageNet,該數據庫免費收集了超過1400萬張帶標簽圖像的數據庫。互聯網過去充滿了無標簽的圖像。需要標記圖像來“訓練”神經網絡。李教授說:“我們的愿景是大數據將改變機器學習的工作方式。數據驅動學習?!?/p>
到2011年,GPU的速度已顯著提高,從而可以“無需”逐層進行預訓練來訓練卷積神經網絡。隨著計算速度的提高,很明顯,深度學習在效率和速度方面具有明顯的優勢。一個例子是AlexNet,一種卷積神經網絡,其體系結構在2011年和2012年期間贏得了多項國際競賽。整流的線性單元用于提高速度和輟學率。
同樣在2012年,GoogleBrain發布了一個名為“貓實驗”的不尋常項目的結果。這個自由奔放的項目探討了“無監督學習”的困難。深度學習使用“監督學習”,這意味著卷積神經網絡是使用標記數據(從ImageNet想到的圖像)進行訓練的。使用無監督學習,卷積神經網絡將獲得未標記的數據,然后被要求尋找重復模式。
貓實驗使用了遍布1,000臺計算機的神經網絡。從YouTube上隨機拍攝了1000萬張“未標記”圖像,并顯示給系統,然后允許運行該培訓軟件。訓練結束時,發現最高層的一個神經元對貓的圖像有強烈反應。該項目的創始人安德魯·伍(AndrewNg)表示:“我們還發現了一種對人臉反應非常強烈的神經元?!睙o監督學習仍然是深度學習領域的重要目標。
貓實驗在處理未標記圖像方面比其先驅者高約70%。但是,它只能識別不到用于訓練的對象的16%,對于旋轉或移動的對象甚至更糟。
當前,大數據的處理和人工智能的發展都依賴于深度學習。深度學習仍在發展,需要創新的想法。