機(jī)器學(xué)習(xí)有什么技術(shù)含量?
我們分兩個(gè)部分回答這個(gè)問題:1.什么是機(jī)器學(xué)習(xí);2.機(jī)器學(xué)習(xí)有什么技術(shù)含量。
1.什么是機(jī)器學(xué)習(xí)?
我們從定義和應(yīng)用兩方面去了解
定義:機(jī)器學(xué)習(xí)的定義主要參考維基百科維基百科(中文)的定義:機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,實(shí)現(xiàn)人工智能的一個(gè)途徑,即以機(jī)器學(xué)習(xí)為手段解決人工智能的問題。機(jī)器學(xué)習(xí)在近30年已發(fā)展為一門多學(xué)科領(lǐng)域交叉科學(xué),涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。從上述定義中我們總結(jié)出機(jī)器學(xué)習(xí)的特點(diǎn):1.人工智能的分支,2.多學(xué)科交叉
應(yīng)用:目前機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、證券市場(chǎng)分析、DNA序列測(cè)序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為機(jī)器學(xué)習(xí)的熱門分支。
而目前最火熱的深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)新領(lǐng)域,由Hinton等人于2006年提出,基于深度置信網(wǎng)絡(luò)(DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望,隨后提出多層自動(dòng)編碼器深層結(jié)構(gòu)。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。
2.機(jī)器學(xué)習(xí)有什么技術(shù)含量:
從以上的描述中我們已經(jīng)直覺的感到機(jī)器學(xué)習(xí)好像很復(fù)雜,技術(shù)含量挺高的,下面我們從專利數(shù)據(jù)中更客觀的了解機(jī)器學(xué)習(xí)的技術(shù)含量。
專利:某個(gè)領(lǐng)域的專利的數(shù)量可以很客觀的反應(yīng)這個(gè)領(lǐng)域的技術(shù)含量是多少,專利越多,所包含的技術(shù)含量約高。從圖中可以看出,人工智能領(lǐng)域的專利僅次于半導(dǎo)體領(lǐng)域,遠(yuǎn)遠(yuǎn)高于硬件和軟件行業(yè)
那么機(jī)器學(xué)習(xí)具體有什么技術(shù)含量呢?我們從三個(gè)部分去了解,它們是機(jī)器學(xué)習(xí)的三駕馬車:算法,框架,硬件
算法:強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的兩大熱門分支
機(jī)器學(xué)習(xí):相關(guān)算法包括邏輯回歸、隱馬爾科夫方法、支持向量機(jī)方法、K近鄰法、三層人工神經(jīng)網(wǎng)絡(luò)方法、Adaboost 算法、貝葉斯方法以及決策樹方法等。強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)是智能體從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)最大化。 常見的算法包括Q-learning,貝爾曼方程,深度Q網(wǎng)絡(luò)(DQN),深度確定性策略梯度。深度學(xué)習(xí): 典型的深度學(xué)習(xí)算法包括深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò),生成式對(duì)抗網(wǎng)絡(luò)等。其中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)是兩類典型的模型。卷積神經(jīng)網(wǎng)絡(luò)常被應(yīng)用于空間性分布數(shù)據(jù);循環(huán)神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)中引入了記憶和反饋,常被應(yīng)用于時(shí)間性分布數(shù)據(jù)。框架:框架是進(jìn)行機(jī)器學(xué)習(xí)的基礎(chǔ)底層結(jié)構(gòu),一般包含主流的神經(jīng)網(wǎng)絡(luò)算法模型,提供穩(wěn)定的機(jī)器學(xué)習(xí)API,支持訓(xùn)練模型在服務(wù)器和GPU、TPU間的分布式學(xué)習(xí),部分框架還具備在包括移動(dòng)設(shè)備、云平臺(tái)在內(nèi)的多種平臺(tái)上運(yùn)行的能力。目前主流的開源框架有TensorFlow、Caffe/Caffe2、CNTK、 MXNet、Paddle-paddle、Torch/PyTorch、Theano 等。
硬件:硬件是機(jī)器學(xué)習(xí)的基礎(chǔ),為機(jī)器學(xué)習(xí)提供強(qiáng)大高效的算力。傳統(tǒng)的CPU芯片架構(gòu)已無法滿足機(jī)器學(xué)習(xí)等大規(guī)模并行計(jì)算的需求,取而代之的是GPU,TPU等可以用于性能加速的硬件、神經(jīng)網(wǎng)絡(luò)芯片、傳感器與中間件,這些是支撐人工智能應(yīng)用的前提。