蘇黎世聯(lián)邦理工學(xué)院曾經(jīng)開發(fā)了一款A(yù)IBenchmark應(yīng)用,用于測試不同安卓設(shè)備和芯片的深度學(xué)習(xí)性能。近期,他們聯(lián)合谷歌、高通、華為、聯(lián)發(fā)科以及Arm發(fā)布了一篇AIBenchmark綜合測試結(jié)果的論文,對超過10000部移動設(shè)備進(jìn)行了定量Benchmark測試,涵蓋了當(dāng)今所有主要硬件配置,并全面比較了高通、海思、聯(lián)發(fā)科和三星芯片組的AI加速性能。
項(xiàng)目官網(wǎng):http://ai-benchmark.com/
完整排行列表:http://ai-benchmark.com/ranking.html
APP鏈接:https://play.google.com/store/apps/details?id=org.benchmark.demo
論文:AIBenchmark:RunningDeepNeuralNetworksonAndroidSmartphones
論文地址:https://arxiv.org/pdf/1810.01109.pdf
摘要:近年來,手機(jī)、平板等移動設(shè)備的計(jì)算能力顯著提升,達(dá)到了臺式計(jì)算機(jī)不久之前的水平。盡管標(biāo)準(zhǔn)智能手機(jī)app對于手機(jī)來說已經(jīng)不成問題,但還有一些任務(wù)(即運(yùn)行人工智能算法)可以輕易難倒它們,甚至高端設(shè)備也不例外。本文介紹了深度學(xué)習(xí)在安卓生態(tài)系統(tǒng)中的現(xiàn)狀,介紹了可用的框架、編程模型以及在智能手機(jī)上運(yùn)行人工智能算法的局限性。我們概述了四個(gè)主要移動芯片組平臺(高通、海思、聯(lián)發(fā)科和三星)上的可用硬件加速資源。此外,我們還展示了用AIBenchmark收集的不同移動SoC的真實(shí)性能結(jié)果,AIBenchmark的測試涵蓋了當(dāng)今所有主要硬件配置。
圖1:為第三方人工智能應(yīng)用程序提供潛在加速支持的移動SoC。
AIBenchmark
AIBenchmark是一款安卓應(yīng)用程序,旨在檢測在移動平臺上運(yùn)行AI和深度學(xué)習(xí)算法的性能和內(nèi)存限制。該Benchmark包含由直接在安卓設(shè)備上運(yùn)行的神經(jīng)網(wǎng)絡(luò)執(zhí)行的幾項(xiàng)計(jì)算機(jī)視覺任務(wù)。測試使用的網(wǎng)絡(luò)代表了當(dāng)前可部署在智能手機(jī)上的最流行、最常用的架構(gòu),其詳細(xì)描述及應(yīng)用程序的技術(shù)細(xì)節(jié)如下。
任務(wù)1:目標(biāo)識別/分類
神經(jīng)網(wǎng)絡(luò):MobileNet-V1|CPU,NPU,DSP
圖像分辨率:224x224px
ImageNet準(zhǔn)確率:69.7%。
這是一個(gè)非常基礎(chǔ)但很強(qiáng)大的神經(jīng)網(wǎng)絡(luò),能夠基于一張照片識別1000個(gè)不同的對象類別,準(zhǔn)確率約為70%。經(jīng)過量化,其大小可小于5Mb,再加上低耗內(nèi)存,它可在幾乎所有現(xiàn)有智能手機(jī)上使用。
任務(wù)2:目標(biāo)識別/分類
神經(jīng)網(wǎng)絡(luò):Inception-V3|CPU,NPU,DSP
圖像分辨率:346x346px
ImageNet準(zhǔn)確率:78.0%
這是對上一個(gè)網(wǎng)絡(luò)的進(jìn)一步擴(kuò)展:更加精確,但代價(jià)是規(guī)模是原來的4倍且對計(jì)算的要求較高。一個(gè)明顯的優(yōu)勢是——它可以處理分辨率更高的圖像,這意味著更精確的識別和更小目標(biāo)的檢測。
任務(wù)3:人臉識別
神經(jīng)網(wǎng)絡(luò):Inception-Resnet-V1|CPU
圖像分辨率:512x512px
LFW得分:0.987
這個(gè)任務(wù)無需過多介紹:根據(jù)人臉照片識別出這個(gè)人。實(shí)現(xiàn)方式如下:對于每個(gè)人臉圖像,神經(jīng)網(wǎng)絡(luò)會對人臉編碼并生成一個(gè)128維的特征向量,該特征向量不隨縮放、移動或旋轉(zhuǎn)而改變。然后,在數(shù)據(jù)庫中檢索和此向量最匹配的特征向量(以及對應(yīng)的身份),數(shù)據(jù)庫里包含數(shù)億個(gè)此類信息。
任務(wù)4:圖像去模糊
神經(jīng)網(wǎng)絡(luò):SRCNN9-5-5|CPU,NPU,DSP
圖像分辨率:300x300px
Set-5得分(x3):32.75dB
還記得用手機(jī)拍出的模糊照片嗎?這個(gè)任務(wù)就是:讓圖片變得清晰。在最簡單的情況下,這種失真是通過對未損壞的圖像應(yīng)用高斯模糊來建模的,然后嘗試使用神經(jīng)網(wǎng)絡(luò)來恢復(fù)它們。在這個(gè)任務(wù)中,模糊是通過一種最原始、最簡單、最輕量級的神經(jīng)網(wǎng)絡(luò)SRCNN(只有3個(gè)卷積層)去除的。但是即便如此,它仍然顯示出相當(dāng)令人滿意的結(jié)果。
任務(wù)5:圖像超分辨率
神經(jīng)網(wǎng)絡(luò):VGG-19|CPU,NPU,DSP
圖像分辨率:192x192px
Set-5得分(x3):33.66dB
你有過縮放照片的經(jīng)歷嗎?縮放時(shí)是不是會有失真、細(xì)節(jié)丟失或清晰度下降的問題?這項(xiàng)任務(wù)就是讓縮放過的照片看起來和原圖一樣。在本任務(wù)中,網(wǎng)絡(luò)被訓(xùn)練用于完成一項(xiàng)等效的任務(wù):將給定的縮小后圖像(如縮小四倍)恢復(fù)至原圖。此處我們使用一個(gè)19層的VGG-19網(wǎng)絡(luò)。盡管目前來看,該網(wǎng)絡(luò)的表現(xiàn)并不驚艷,也不能重建高頻部分,但它對于繪畫仍是理想的解決方案:該網(wǎng)絡(luò)可以讓圖像變得更加清晰、平滑。
任務(wù)6:圖像超分辨率
神經(jīng)網(wǎng)絡(luò):SRGAN|僅CPU
圖像分辨率:512x512px
Set-5得分(x4):29.40dB
任務(wù)同上,但完成方法略有不同:如果我們使用其他神經(jīng)網(wǎng)絡(luò)訓(xùn)練我們的神經(jīng)網(wǎng)絡(luò)會如何?我們安排兩個(gè)網(wǎng)絡(luò)去完成兩個(gè)不同的任務(wù):網(wǎng)絡(luò)A嘗試解決上面提到的超分辨率問題,網(wǎng)絡(luò)B觀察其結(jié)果,嘗試找到其中的缺陷并懲罰網(wǎng)絡(luò)A。聽起來是不是很酷?實(shí)際上真的很酷:盡管該方法不盡完美,但結(jié)果往往非常驚艷。
任務(wù)7:語義圖像分割
神經(jīng)網(wǎng)絡(luò):ICNet|僅CPU
圖像分辨率:384x576px
CityScapes(mIoU):69.5%
有沒有想過在手機(jī)上運(yùn)行自動駕駛算法?這沒什么不可能,至少你可以完成一大部分任務(wù)——根據(jù)車載攝像頭拍攝的照片檢測19類目標(biāo)(例如,車、行人、路、天空等)。在下圖中,你可以看到最近專為低性能設(shè)備設(shè)計(jì)的ICNet網(wǎng)絡(luò)的像素級分割結(jié)果(每個(gè)顏色對應(yīng)每個(gè)目標(biāo)類別)。
任務(wù)8:圖像增強(qiáng)
神經(jīng)網(wǎng)絡(luò):ResNet-12|CPU,NPU,DSP
圖像分辨率:128x192px
DPEDPSNRi-得分:18.11dB
看舊手機(jī)上的照片是不是覺得很難受?這個(gè)問題可以解決:經(jīng)過恰當(dāng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以讓舊手機(jī)(即使是iPhone3GS)上的照片看起來非常好、非常時(shí)髦。要做到這一點(diǎn),網(wǎng)絡(luò)要觀察、學(xué)習(xí)如何將來自低端設(shè)備的照片優(yōu)化成像用DSLR相機(jī)拍出來的一樣。當(dāng)然,這一奇跡有一些明顯的缺陷(如:每次換新手機(jī)模型都要重新訓(xùn)練網(wǎng)絡(luò)),但得到的圖像看起來非常好,尤其是舊設(shè)備上的照片。
任務(wù)9:內(nèi)存極限
神經(jīng)網(wǎng)絡(luò):SRCNN9-5-5|CPU,NPU,DSP
圖像分辨率:4MP
參數(shù):69.162
在任務(wù)4中我們已經(jīng)認(rèn)識了SRCNN,它是最輕便、簡單的神經(jīng)網(wǎng)絡(luò)之一,但即便如此,在處理高分辨率照片時(shí),它也會讓大多數(shù)手機(jī)「給跪」:要處理高清照片,手機(jī)至少要有6GB的內(nèi)存。這項(xiàng)測試的目的是找到你設(shè)備的極限:這個(gè)最簡易的網(wǎng)絡(luò)到底能處理多大的圖像?
圖7:在相關(guān)深度學(xué)習(xí)測試中向用戶展示的結(jié)果可視化示例。
圖8:測試結(jié)束后AIBenchmark給出的結(jié)果。
Benchmark結(jié)果
我們展示了超過10000部移動設(shè)備的定量Benchmark結(jié)果。每部設(shè)備/SoC的分?jǐn)?shù)見表2、表3,包含每個(gè)測試/網(wǎng)絡(luò)對一張圖像的平均處理時(shí)間、可用SRCNN模型處理的最大可能圖像分辨率,以及總計(jì)AI分?jǐn)?shù)。這些分?jǐn)?shù)是通過對應(yīng)設(shè)備/SoC的所有結(jié)果去除異常值之后取平均得到的。結(jié)果細(xì)節(jié)將在下文中介紹。
神經(jīng)網(wǎng)絡(luò)
表1總結(jié)了本Benchmark包含的所有深度學(xué)習(xí)架構(gòu)的細(xì)節(jié)。表2與表3中的結(jié)果和網(wǎng)絡(luò)的相對處理時(shí)間以及內(nèi)存消耗的理論期望高度一致。尤其是,第一個(gè)測試的量化MobileNetCNN相比相同的浮點(diǎn)模型僅需要1/3到1/4的RAM,并且其在CPU上的運(yùn)行速度比Inception-V3CNN快了一個(gè)數(shù)量級。第三個(gè)人臉識別測試處理的是兩倍大的圖像,并且比第二個(gè)測試需要大約兩倍的推理時(shí)間,意味著Inception-ResNet-V1和Inception-V3的性能是相當(dāng)?shù)摹?/p>
表1:AIBenchmark中用到的深度學(xué)習(xí)模型的特點(diǎn)總結(jié)。
在圖像到圖像的處理任務(wù)中,最高效的模型是ICNet,因?yàn)橛?jì)算主要發(fā)生在對圖像/特征圖的下采樣。相同的方法也在SRGAN上使用,其中原始圖像被下采樣至128x128像素,并在這個(gè)分辨率上處理,直到最后兩個(gè)層將其上采樣至原始尺寸。因此,盡管使用了12個(gè)殘差塊,其處理時(shí)間仍然是合理的,不過使用下采樣/上采樣層處理512x512像素的圖像使得RAM占用特別高。圖像增強(qiáng)任務(wù)中使用的DPED網(wǎng)絡(luò)包含4個(gè)殘差塊,在處理圖像的過程中沒有使用下采樣,因此處理時(shí)間應(yīng)該是之前案例的128x128x12/128x192x4=2倍,正如在實(shí)驗(yàn)中所展示的。
第五個(gè)測試中使用的VGG-19模型在所有CNN中是最消耗資源的,因?yàn)樗?9個(gè)卷積層構(gòu)成,在理論上其會比DPED慢19/12=1.6倍(它們的卷積層尺寸相似);但是RAM的消耗分布仍處于相近的范圍,因?yàn)槠渲饕勺畲缶矸e層的維度決定。最后,SRCNN模型比VGG-19和DPED都快得多,并且內(nèi)存消耗由于相同的原因也非常相似。SRCNN可以處理的最高圖像像素的尺寸隨設(shè)備的總RAM大小而線性增長,盡管由于NNAPI中的一個(gè)bug,這對于安卓8.1以上的手機(jī)不適用,它們一般要消耗更多的RAM。我們應(yīng)該注意目前所有的結(jié)論都是基于不支持硬件加速的結(jié)果,因?yàn)橛布铀倌茱@著改變測試1、2、4、5、8和9的結(jié)果。
表2:多種安卓手機(jī)的Benchmark結(jié)果,完整列表在:http://ai-benchmark.com/ranking
表3:幾個(gè)SoC的Benchmark結(jié)果,完整列表請參考鏈接:http://ai-benchmark.com/ranking_processors
智能手機(jī)和移動芯片
表2和表3的結(jié)果展示了使用AIBenchmark獲得的一些測試結(jié)果,其中分別包括安卓智能手機(jī)和移動端芯片。完整的列表可以在項(xiàng)目網(wǎng)站上查看。在具體討論測試細(xì)節(jié)之前,我們首先要提到幾個(gè)AndroidNNAPIBugs,這些漏洞同樣影響了表中的一些結(jié)果。首先是Android8.1默認(rèn)NNAPI驅(qū)動的漏洞,卷積運(yùn)算在禁用這些驅(qū)動的情況下要比在啟用時(shí)性能快兩倍。因此在為表3中展示的不同SoC計(jì)算平均runtime時(shí),我們忽略了手機(jī)測試結(jié)果可能存在的這一問題。
雖然使用Android8.1和Kirin970芯片的華為手機(jī)使用的是他們自己定制的NNAPI實(shí)現(xiàn),它還是會遇到另外不同的Bug:在長待機(jī)后,麒麟的NPU時(shí)鐘速度會下降,并且在重啟之前不會恢復(fù)。兩個(gè)表中的結(jié)果都是在華為設(shè)備剛啟動時(shí)測試的。最后因?yàn)?.2節(jié)中描述的ByteBuffer問題,在圖像到圖像的測試中使用AndroidNNAPI的RAM消耗要高了兩倍,它所造成的后果可以在最后的內(nèi)存測試中觀察到。
我們在下面總結(jié)了每個(gè)Soc制造商的測試結(jié)果,并描述了市場上對應(yīng)芯片的性能。
高通:驍龍芯片(Snapdragon)現(xiàn)在能為量化神經(jīng)網(wǎng)絡(luò)提供硬件加速(當(dāng)高通的NNAPI驅(qū)動存在時(shí)),不過現(xiàn)有的商業(yè)設(shè)備并不支持浮點(diǎn)模型。包含這些驅(qū)動的第一代智能手機(jī)是配備驍龍845SoC和最新AndroidP固件的OnePlus6。它可以在HexagonDSP上25ms內(nèi)運(yùn)行量化MobileNet模型,這比對應(yīng)CPU速度(60-65ms)快得多。類似的性能在包含相同Hexagon685DSP的驍龍670/710芯片中獲得。帶有Hexagon682的驍龍835和帶有Hexagon680的驍龍636/660/820/821都采用相同的高通68xDSP家族,應(yīng)該具有更長的運(yùn)行時(shí)。
雖然目前高通NNAPI驅(qū)動還沒有所支持加速的浮點(diǎn)模型官方測試,但驍龍625SoC相比于基于CPU的執(zhí)行能實(shí)現(xiàn)兩倍的加速,其中驍龍625SoC可能使用集成Adreno506GPU驅(qū)動程序的Beta版。雖然Adreno506的性能約為130GFLOPs,這意味著驍龍845SoC中的Adreno630(727GFLOPs)能潛在地提供3到4倍的加速,但具體的數(shù)字可能變化很大。
至于與矩陣/深度學(xué)習(xí)計(jì)算相關(guān)的CPU性能,目前最強(qiáng)大的高通核心是驍龍845SoC中的Kryo385Gold。與高通835的Kryo280核心相比,它展現(xiàn)出大約30%的提升。有趣的是,與帶有定制化非Cortex的驍龍820SoC及內(nèi)部的第一代Kryo相比,Kryo280表現(xiàn)出相似或稍微降低的性能(每GHz)。盡管第一代Kryo在設(shè)計(jì)上只有四個(gè)計(jì)算核心,但仍然比帶有更新Kryo260核心的驍龍636/660快一些。以前在2013年由驍龍800/801所代表的Krait微架構(gòu)仍然展現(xiàn)出很有競爭力的結(jié)果,性能優(yōu)于2xx、4xx和6xx系列的大多數(shù)結(jié)果,甚至緊隨基于Cortex-A57微架構(gòu)的810和808芯片的測試結(jié)果。我們還注意到定制的高通CPU核心通常比默認(rèn)ARMCortex架構(gòu)表現(xiàn)出更好的結(jié)果。
華為:盡管海思SoC的CPU性能不如高通的那么令人印象深刻,其集成到麒麟970的NPU為浮點(diǎn)深度學(xué)習(xí)模型提供了巨大的加速效果。尤其是,根據(jù)任務(wù)類型,對比它的CPU它可以提供7-21倍加速的推理,對比總體最優(yōu)的CPU結(jié)果它可以提供4-7倍的更優(yōu)性能。在支持GPU加速的測試2、4、5、8中,它分別需要平均132、274、240和193ms的時(shí)間來處理一張圖像。該NPU僅有的主要缺點(diǎn)是缺乏對量化模型的加速支持。在第一個(gè)測試中,所有的計(jì)算都是在CPU上運(yùn)行的,每張圖像的平均處理時(shí)間是160ms,這相比驍龍845啟用DSP時(shí)的對應(yīng)結(jié)果要高得多。盡管這個(gè)問題可以通過在麒麟的NNAPI驅(qū)動程序中實(shí)現(xiàn)量化模式得到解決,目前這項(xiàng)功能仍處于開發(fā)階段。
至于其它的海思芯片組,目前都不提供AI應(yīng)用的加速,因此所有的計(jì)算都是在CPU上進(jìn)行的。由于所有的海思的SoC都是基于標(biāo)準(zhǔn)的ArmCortex核心,它們的性能和其它有相同Cortex架構(gòu)的芯片組也很相似。
聯(lián)發(fā)科:HelioP60是首個(gè)能利用NNAPI驅(qū)動程序以加速浮點(diǎn)和量化模型的芯片組。量化網(wǎng)絡(luò)在其集成的APU上運(yùn)行,并展示了在第一個(gè)測試中處理一張圖像時(shí)和Hexagon685DSP—21ms相似的性能。浮點(diǎn)網(wǎng)絡(luò)在Mali-G72MP3GPU上執(zhí)行,并對比CPU提供了2-5倍的加速,相比總體的最優(yōu)CPU結(jié)果其運(yùn)行時(shí)要快1.5-2倍。我們應(yīng)該注意所有這些數(shù)值都是在MediaTek的開發(fā)者手機(jī)上獲得的結(jié)果,而僅有的基于HelioP60和NNAPI驅(qū)動程序的市場手機(jī)(vivoV11)得到了稍微差一點(diǎn)的結(jié)果。
其它聯(lián)發(fā)科芯片組目前不支持AI應(yīng)用的加速。它們是在標(biāo)準(zhǔn)ArmCortex設(shè)計(jì)的CPU核心上運(yùn)行的。
三星:截至本文寫作時(shí),三星的所有SoC都不能提供第三方AI應(yīng)用的加速:所有配置這些芯片組的手機(jī)使用了默認(rèn)的NNAPI驅(qū)動程序。由于最新的Exynos9810SoC擁有相同的Mali-G72顯卡。正如MediaTekP60芯片組一樣(但其有12個(gè)核心而不是3個(gè)),如果ArmNN庫被三星整合到NNAPI驅(qū)動程序中,我們預(yù)期對浮點(diǎn)神經(jīng)網(wǎng)絡(luò)會有3-4的額外加速因子。由于所有近期的SamsungExynos處理器使用了ArmMaliGPU,它們也適用同樣的結(jié)論。
視任務(wù)類型而定,三星的MongooseM3CPU核心對比驍龍845的定制Kryo385核心可以展示顯著更好或者更差的性能,但它們的總體性能是相當(dāng)?shù)摹ongooseM2微架構(gòu)相對于第一個(gè)M1版本有50%的顯著提升,同時(shí)第二代(M2)和第三代(M3)的性能很相似。最新的Exynos8895和9810SoCs的一個(gè)值得注意的問題和它們的集成能耗管理系統(tǒng)(可調(diào)整CPU性能)相關(guān)。它導(dǎo)致了大多數(shù)設(shè)備的非常不穩(wěn)定的結(jié)果:尤其是,幾個(gè)之后在相同的GalaxyS9手機(jī)上運(yùn)行的Benchmark(有10分鐘的間隔,「高性能」模式)都展示了總體分?jǐn)?shù)的50%的變動,從不同設(shè)備獲得的結(jié)果甚至有更大的變動(例如,第七個(gè)測試的200-800ms的處理時(shí)間)。目前,尚未有對不同性能模式的外部控制手段,因?yàn)樗鼈兪腔趦?nèi)部邏輯而自動選取的。
其它:我們還獲得了在其它不常用(如Spreadtrum)或被制造商停產(chǎn)(例如,IntelAtom、NvidiaTegra、TIOMAP)的芯片組上的測試結(jié)果。其中,在支持CUDA和專用于深度神經(jīng)網(wǎng)絡(luò)的cuDNNGPU加速庫的NvidiaTegra平臺上測試AI和深度學(xué)習(xí)時(shí)我們得到了非常有趣的結(jié)果。不幸的是,自2015年以來沒有新的設(shè)備使用過NvidiaSoC,而已有的設(shè)備已經(jīng)停產(chǎn),并且不會再獲得加速機(jī)器學(xué)習(xí)移動端框架的(NNAPI)驅(qū)動程序。
討論
目前,對機(jī)器學(xué)習(xí)在移動設(shè)備上的軟硬件支持發(fā)展得非常快,每隔幾個(gè)月就有公司宣布里程碑式的技術(shù)。這些技術(shù)當(dāng)然帶來了新的可能性和更高的性能,但目前缺乏標(biāo)準(zhǔn)化要求和公開規(guī)范,造成無法確保對技術(shù)優(yōu)劣勢進(jìn)行客觀評估。下文介紹了我們通過NNAPI驅(qū)動程序使用移動機(jī)器學(xué)習(xí)框架和硬件加速芯片組的體驗(yàn)。
目前,開始在安卓設(shè)備上使用深度學(xué)習(xí)的最簡單方式是使用成熟、相對穩(wěn)定的TensorFlowMobile框架。該框架出現(xiàn)于兩年前,基本上解決了所有主要問題,且人們可在多個(gè)專門網(wǎng)站上找到關(guān)于細(xì)小問題的大量信息。如果硬件加速是關(guān)鍵問題,那么TensorFlowLite仍然可以作為選擇,但是我們不推薦使用它進(jìn)行比用MobileNet或InceptionCNN執(zhí)行圖像分類更復(fù)雜的任務(wù),因?yàn)樵谝苿悠脚_上使用不標(biāo)準(zhǔn)的網(wǎng)絡(luò)架構(gòu)可能出現(xiàn)偶發(fā)問題。我們還提到從TFMobile到TFLite的遷移相對簡單,因?yàn)樗鼈兪褂玫陌沧烤幊探涌诤芟嗨疲ㄗ畲蟮膮^(qū)別在于TFLite將預(yù)訓(xùn)練模型轉(zhuǎn)換成.tflite,而不是.pb格式),我們可以在TFLite得到更好支持的情況下再進(jìn)行遷移。如果某個(gè)應(yīng)用針對某些特定設(shè)備或SoC,那么對應(yīng)的專用SDK也可以使用,盡管這種情況下開發(fā)可能不那么容易、簡便。至于Caffe2Mobile和其他不那么廣泛使用的框架,目前它們的社區(qū)還比較小,這意味著網(wǎng)絡(luò)上幾乎沒什么教程和問題描述,因此所有出現(xiàn)的問題可能需要通過在對應(yīng)的GitHubrepo中創(chuàng)建新的issue來解決。
對安卓設(shè)備上的AI算法提供硬件支持目前是一個(gè)更有爭議的話題。截至本文寫作時(shí),常規(guī)的浮點(diǎn)神經(jīng)網(wǎng)絡(luò)的最快運(yùn)行時(shí)屬于裝載了麒麟970的華為手機(jī),遠(yuǎn)遠(yuǎn)領(lǐng)先于市場平均水平。但是,我們?nèi)砸陀^地看待未來的發(fā)展,我們的分析表明幾乎所有SoC制造商都有潛力使用新的芯片組達(dá)到類似的結(jié)果。下一年年初情況將逐漸明晰,那時(shí)裝載有麒麟980、MediaTekP80和新一代高通、SamsungExynospremiumSoC的設(shè)備將上市。除了性能,我們還考察了它們的能耗,因?yàn)楹碾娺^快會限制它們對一些標(biāo)準(zhǔn)相機(jī)內(nèi)置處理技術(shù)的使用。
我們想解決的最后一個(gè)問題是量化網(wǎng)絡(luò)的使用。它們的目前應(yīng)用很受限,因?yàn)槟壳叭匀粵]有用于量化網(wǎng)絡(luò)的可靠、標(biāo)準(zhǔn)工具,即使是對簡單的圖像分類任務(wù),更不用說復(fù)雜的任務(wù)了。目前,我們期待該領(lǐng)域的兩種不同開發(fā)方式。第一種,量化問題將在某個(gè)時(shí)刻得到解決,部署在智能手機(jī)上的大多數(shù)神經(jīng)網(wǎng)絡(luò)都能被量化。第二種,支持浮點(diǎn)網(wǎng)絡(luò)的特定NPU變得更加強(qiáng)大、高效,從而不再需要量化。當(dāng)然我們沒辦法輕松地預(yù)測未來,但我們?nèi)詫⒃贏Ibenchmark中使用量化和浮點(diǎn)模型的混合(浮點(diǎn)模型占主導(dǎo)),不過未來的版本中對應(yīng)的比率可能會發(fā)生很大改變。
目前有很多重要的開放性問題可能會在出現(xiàn)新的機(jī)器學(xué)習(xí)相關(guān)軟硬件和新的專用芯片后得到解決,因此我們計(jì)劃出版介紹移動設(shè)備AI加速實(shí)際情況的常規(guī)benchmark報(bào)告,該報(bào)告也會涉及機(jī)器學(xué)習(xí)領(lǐng)域的改變以及AIbenchmark所做出的相應(yīng)調(diào)整。AIBenchmark的最新測試結(jié)果和實(shí)際測試描述將在項(xiàng)目網(wǎng)站上進(jìn)行每月更新。