為什么人工智能tensorflow運(yùn)算是以矩陣運(yùn)算作為基礎(chǔ)的?
tensorflow作為深度學(xué)習(xí)框架,背后的理論以矩陣運(yùn)算為基礎(chǔ)
矩陣運(yùn)算,能極大加速計(jì)算過(guò)程,如果不用矩陣運(yùn)算,模型訓(xùn)練時(shí)間太長(zhǎng)
理論基礎(chǔ)和對(duì)速度的要求,使得以矩陣運(yùn)算成為必然。深度學(xué)習(xí)的理論基礎(chǔ)以矩陣為基礎(chǔ)tensorflow是Google開(kāi)發(fā)的深度學(xué)習(xí)框架,而深度學(xué)習(xí),作為一種數(shù)學(xué)模型,是以數(shù)學(xué)為基礎(chǔ)的,具體來(lái)講是以線性代數(shù)和概率論為基礎(chǔ)。而矩陣和張量 (Tensor, 對(duì),就是Tensorflow中的Tensor)是線性代數(shù)的基本數(shù)學(xué)概念。
優(yōu)化算法中的最速下降法離不開(kāi)對(duì)矩陣求導(dǎo)深度學(xué)習(xí)絕大多數(shù)都是監(jiān)督學(xué)習(xí),或者想辦法轉(zhuǎn)為監(jiān)督學(xué)習(xí),比如貓狗分類、銷量預(yù)測(cè)等等。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一種,優(yōu)化算法本質(zhì)上是梯度下降法,對(duì)應(yīng)數(shù)學(xué)的最速下降法。
看看回歸中的求導(dǎo)算法:
背后求導(dǎo)都是基于矩陣的,會(huì)涉及矩陣的求逆、懲罰運(yùn)算等。
深度學(xué)習(xí)中的基本模塊離不開(kāi)矩陣運(yùn)算以近兩年自然語(yǔ)言處理中火熱的BERT模型為例,里面的模型架構(gòu)都已 Transformer為基礎(chǔ),看看這個(gè)模型的內(nèi)部結(jié)構(gòu):
里面的線性層(Linear)本質(zhì)上就是兩個(gè)矩陣的相乘, 注意力機(jī)制模型 (Attention)見(jiàn)下面兩幅圖,明顯也是矩陣相乘(MatMul)緊密相關(guān)。
矩陣(張量)運(yùn)算可以加速訓(xùn)練計(jì)算機(jī)硬件本質(zhì)上是對(duì)應(yīng)的都是電路,背后都是數(shù)字的加減乘除基本運(yùn)算,最底層是信號(hào)的與或非等基本電路。
理論上而言,也不可以用矩陣,直接用標(biāo)量寫個(gè)多重For循環(huán)計(jì)算,但是這樣速度太慢。
而利用向量化能明顯加速計(jì)算過(guò)程,python中常用numpy背后都是以向量化為基礎(chǔ)的矩陣運(yùn)算。
再進(jìn)一步到英偉達(dá)的GPU或者Google的TPU, 用專門的芯片來(lái)專門做矩陣運(yùn)算。見(jiàn)下圖,是16年某論文的截圖,可以看到對(duì)GPU而言,在k=[0, 128]區(qū)間范圍內(nèi),對(duì)上千維的矩陣相乘(2560×2048, 2048×k),時(shí)間是恒定不變的,可見(jiàn) GPU對(duì)矩陣運(yùn)算的加速能力。