網(wǎng)站導(dǎo)航

哪些安卓手機(jī)適合AI應(yīng)用？

蘇黎世聯(lián)邦理工學(xué)院曾經(jīng)開發(fā)了一款A(yù)IBenchmark應(yīng)用，用于測試不同安卓設(shè)備和芯片的深度學(xué)習(xí)性能。近期，他們聯(lián)合谷歌、高通、華為、聯(lián)發(fā)科以及Arm發(fā)布了一篇AIBenchmark綜合測試結(jié)果的論文，對超過10000部移動設(shè)備進(jìn)行了定量Benchmark測試，涵蓋了當(dāng)今所有主要硬件配置，并全面比較了高通、海思、聯(lián)發(fā)科和三星芯片組的AI加速性能。

項(xiàng)目官網(wǎng)：http://ai-benchmark.com/
完整排行列表：http://ai-benchmark.com/ranking.html
APP鏈接：https://play.google.com/store/apps/details?id=org.benchmark.demo

論文：AIBenchmark:RunningDeepNeuralNetworksonAndroidSmartphones

論文地址：https://arxiv.org/pdf/1810.01109.pdf

摘要：近年來，手機(jī)、平板等移動設(shè)備的計(jì)算能力顯著提升，達(dá)到了臺式計(jì)算機(jī)不久之前的水平。盡管標(biāo)準(zhǔn)智能手機(jī)app對于手機(jī)來說已經(jīng)不成問題，但還有一些任務(wù)（即運(yùn)行人工智能算法）可以輕易難倒它們，甚至高端設(shè)備也不例外。本文介紹了深度學(xué)習(xí)在安卓生態(tài)系統(tǒng)中的現(xiàn)狀，介紹了可用的框架、編程模型以及在智能手機(jī)上運(yùn)行人工智能算法的局限性。我們概述了四個(gè)主要移動芯片組平臺（高通、海思、聯(lián)發(fā)科和三星）上的可用硬件加速資源。此外，我們還展示了用AIBenchmark收集的不同移動SoC的真實(shí)性能結(jié)果，AIBenchmark的測試涵蓋了當(dāng)今所有主要硬件配置。

圖1：為第三方人工智能應(yīng)用程序提供潛在加速支持的移動SoC。

AIBenchmark

AIBenchmark是一款安卓應(yīng)用程序，旨在檢測在移動平臺上運(yùn)行AI和深度學(xué)習(xí)算法的性能和內(nèi)存限制。該Benchmark包含由直接在安卓設(shè)備上運(yùn)行的神經(jīng)網(wǎng)絡(luò)執(zhí)行的幾項(xiàng)計(jì)算機(jī)視覺任務(wù)。測試使用的網(wǎng)絡(luò)代表了當(dāng)前可部署在智能手機(jī)上的最流行、最常用的架構(gòu)，其詳細(xì)描述及應(yīng)用程序的技術(shù)細(xì)節(jié)如下。

任務(wù)1：目標(biāo)識別/分類

神經(jīng)網(wǎng)絡(luò)：MobileNet-V1|CPU,NPU,DSP

圖像分辨率：224x224px

ImageNet準(zhǔn)確率：69.7%。

這是一個(gè)非常基礎(chǔ)但很強(qiáng)大的神經(jīng)網(wǎng)絡(luò)，能夠基于一張照片識別1000個(gè)不同的對象類別，準(zhǔn)確率約為70%。經(jīng)過量化，其大小可小于5Mb，再加上低耗內(nèi)存，它可在幾乎所有現(xiàn)有智能手機(jī)上使用。

任務(wù)2：目標(biāo)識別/分類

神經(jīng)網(wǎng)絡(luò)：Inception-V3|CPU,NPU,DSP

圖像分辨率：346x346px

ImageNet準(zhǔn)確率：78.0%

這是對上一個(gè)網(wǎng)絡(luò)的進(jìn)一步擴(kuò)展：更加精確，但代價(jià)是規(guī)模是原來的4倍且對計(jì)算的要求較高。一個(gè)明顯的優(yōu)勢是——它可以處理分辨率更高的圖像，這意味著更精確的識別和更小目標(biāo)的檢測。

任務(wù)3：人臉識別

神經(jīng)網(wǎng)絡(luò)：Inception-Resnet-V1|CPU

圖像分辨率：512x512px

LFW得分：0.987

這個(gè)任務(wù)無需過多介紹：根據(jù)人臉照片識別出這個(gè)人。實(shí)現(xiàn)方式如下：對于每個(gè)人臉圖像，神經(jīng)網(wǎng)絡(luò)會對人臉編碼并生成一個(gè)128維的特征向量，該特征向量不隨縮放、移動或旋轉(zhuǎn)而改變。然后，在數(shù)據(jù)庫中檢索和此向量最匹配的特征向量（以及對應(yīng)的身份），數(shù)據(jù)庫里包含數(shù)億個(gè)此類信息。

任務(wù)4：圖像去模糊

神經(jīng)網(wǎng)絡(luò)：SRCNN9-5-5|CPU,NPU,DSP

圖像分辨率：300x300px

Set-5得分(x3)：32.75dB

還記得用手機(jī)拍出的模糊照片嗎？這個(gè)任務(wù)就是：讓圖片變得清晰。在最簡單的情況下，這種失真是通過對未損壞的圖像應(yīng)用高斯模糊來建模的，然后嘗試使用神經(jīng)網(wǎng)絡(luò)來恢復(fù)它們。在這個(gè)任務(wù)中，模糊是通過一種最原始、最簡單、最輕量級的神經(jīng)網(wǎng)絡(luò)SRCNN（只有3個(gè)卷積層）去除的。但是即便如此，它仍然顯示出相當(dāng)令人滿意的結(jié)果。

任務(wù)5：圖像超分辨率

神經(jīng)網(wǎng)絡(luò)：VGG-19|CPU,NPU,DSP

圖像分辨率：192x192px

Set-5得分(x3)：33.66dB

你有過縮放照片的經(jīng)歷嗎？縮放時(shí)是不是會有失真、細(xì)節(jié)丟失或清晰度下降的問題？這項(xiàng)任務(wù)就是讓縮放過的照片看起來和原圖一樣。在本任務(wù)中，網(wǎng)絡(luò)被訓(xùn)練用于完成一項(xiàng)等效的任務(wù)：將給定的縮小后圖像（如縮小四倍）恢復(fù)至原圖。此處我們使用一個(gè)19層的VGG-19網(wǎng)絡(luò)。盡管目前來看，該網(wǎng)絡(luò)的表現(xiàn)并不驚艷，也不能重建高頻部分，但它對于繪畫仍是理想的解決方案：該網(wǎng)絡(luò)可以讓圖像變得更加清晰、平滑。

任務(wù)6：圖像超分辨率

神經(jīng)網(wǎng)絡(luò)：SRGAN|僅CPU

圖像分辨率：512x512px

Set-5得分（x4）：29.40dB

任務(wù)同上，但完成方法略有不同：如果我們使用其他神經(jīng)網(wǎng)絡(luò)訓(xùn)練我們的神經(jīng)網(wǎng)絡(luò)會如何？我們安排兩個(gè)網(wǎng)絡(luò)去完成兩個(gè)不同的任務(wù)：網(wǎng)絡(luò)A嘗試解決上面提到的超分辨率問題，網(wǎng)絡(luò)B觀察其結(jié)果，嘗試找到其中的缺陷并懲罰網(wǎng)絡(luò)A。聽起來是不是很酷？實(shí)際上真的很酷：盡管該方法不盡完美，但結(jié)果往往非常驚艷。

任務(wù)7：語義圖像分割

神經(jīng)網(wǎng)絡(luò)：ICNet|僅CPU

圖像分辨率：384x576px

CityScapes(mIoU)：69.5%

有沒有想過在手機(jī)上運(yùn)行自動駕駛算法？這沒什么不可能，至少你可以完成一大部分任務(wù)——根據(jù)車載攝像頭拍攝的照片檢測19類目標(biāo)（例如，車、行人、路、天空等）。在下圖中，你可以看到最近專為低性能設(shè)備設(shè)計(jì)的ICNet網(wǎng)絡(luò)的像素級分割結(jié)果（每個(gè)顏色對應(yīng)每個(gè)目標(biāo)類別）。

任務(wù)8：圖像增強(qiáng)

神經(jīng)網(wǎng)絡(luò)：ResNet-12|CPU,NPU,DSP

圖像分辨率：128x192px

DPEDPSNRi-得分：18.11dB

看舊手機(jī)上的照片是不是覺得很難受？這個(gè)問題可以解決：經(jīng)過恰當(dāng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以讓舊手機(jī)（即使是iPhone3GS）上的照片看起來非常好、非常時(shí)髦。要做到這一點(diǎn)，網(wǎng)絡(luò)要觀察、學(xué)習(xí)如何將來自低端設(shè)備的照片優(yōu)化成像用DSLR相機(jī)拍出來的一樣。當(dāng)然，這一奇跡有一些明顯的缺陷（如：每次換新手機(jī)模型都要重新訓(xùn)練網(wǎng)絡(luò)），但得到的圖像看起來非常好，尤其是舊設(shè)備上的照片。

任務(wù)9：內(nèi)存極限

神經(jīng)網(wǎng)絡(luò)：SRCNN9-5-5|CPU,NPU,DSP

圖像分辨率：4MP

參數(shù)：69.162

在任務(wù)4中我們已經(jīng)認(rèn)識了SRCNN，它是最輕便、簡單的神經(jīng)網(wǎng)絡(luò)之一，但即便如此，在處理高分辨率照片時(shí)，它也會讓大多數(shù)手機(jī)「給跪」：要處理高清照片，手機(jī)至少要有6GB的內(nèi)存。這項(xiàng)測試的目的是找到你設(shè)備的極限：這個(gè)最簡易的網(wǎng)絡(luò)到底能處理多大的圖像？

圖7：在相關(guān)深度學(xué)習(xí)測試中向用戶展示的結(jié)果可視化示例。

圖8：測試結(jié)束后AIBenchmark給出的結(jié)果。

Benchmark結(jié)果

我們展示了超過10000部移動設(shè)備的定量Benchmark結(jié)果。每部設(shè)備/SoC的分?jǐn)?shù)見表2、表3，包含每個(gè)測試/網(wǎng)絡(luò)對一張圖像的平均處理時(shí)間、可用SRCNN模型處理的最大可能圖像分辨率，以及總計(jì)AI分?jǐn)?shù)。這些分?jǐn)?shù)是通過對應(yīng)設(shè)備/SoC的所有結(jié)果去除異常值之后取平均得到的。結(jié)果細(xì)節(jié)將在下文中介紹。

神經(jīng)網(wǎng)絡(luò)

表1總結(jié)了本Benchmark包含的所有深度學(xué)習(xí)架構(gòu)的細(xì)節(jié)。表2與表3中的結(jié)果和網(wǎng)絡(luò)的相對處理時(shí)間以及內(nèi)存消耗的理論期望高度一致。尤其是，第一個(gè)測試的量化MobileNetCNN相比相同的浮點(diǎn)模型僅需要1/3到1/4的RAM，并且其在CPU上的運(yùn)行速度比Inception-V3CNN快了一個(gè)數(shù)量級。第三個(gè)人臉識別測試處理的是兩倍大的圖像，并且比第二個(gè)測試需要大約兩倍的推理時(shí)間，意味著Inception-ResNet-V1和Inception-V3的性能是相當(dāng)?shù)摹?/p>

表1：AIBenchmark中用到的深度學(xué)習(xí)模型的特點(diǎn)總結(jié)。

在圖像到圖像的處理任務(wù)中，最高效的模型是ICNet，因?yàn)橛?jì)算主要發(fā)生在對圖像/特征圖的下采樣。相同的方法也在SRGAN上使用，其中原始圖像被下采樣至128x128像素，并在這個(gè)分辨率上處理，直到最后兩個(gè)層將其上采樣至原始尺寸。因此，盡管使用了12個(gè)殘差塊，其處理時(shí)間仍然是合理的，不過使用下采樣/上采樣層處理512x512像素的圖像使得RAM占用特別高。圖像增強(qiáng)任務(wù)中使用的DPED網(wǎng)絡(luò)包含4個(gè)殘差塊，在處理圖像的過程中沒有使用下采樣，因此處理時(shí)間應(yīng)該是之前案例的128x128x12/128x192x4=2倍，正如在實(shí)驗(yàn)中所展示的。

第五個(gè)測試中使用的VGG-19模型在所有CNN中是最消耗資源的，因?yàn)樗?9個(gè)卷積層構(gòu)成，在理論上其會比DPED慢19/12=1.6倍（它們的卷積層尺寸相似）；但是RAM的消耗分布仍處于相近的范圍，因?yàn)槠渲饕勺畲缶矸e層的維度決定。最后，SRCNN模型比VGG-19和DPED都快得多，并且內(nèi)存消耗由于相同的原因也非常相似。SRCNN可以處理的最高圖像像素的尺寸隨設(shè)備的總RAM大小而線性增長，盡管由于NNAPI中的一個(gè)bug，這對于安卓8.1以上的手機(jī)不適用，它們一般要消耗更多的RAM。我們應(yīng)該注意目前所有的結(jié)論都是基于不支持硬件加速的結(jié)果，因?yàn)橛布铀倌茱@著改變測試1、2、4、5、8和9的結(jié)果。

表2：多種安卓手機(jī)的Benchmark結(jié)果，完整列表在：http://ai-benchmark.com/ranking

表3：幾個(gè)SoC的Benchmark結(jié)果，完整列表請參考鏈接：http://ai-benchmark.com/ranking_processors

智能手機(jī)和移動芯片

表2和表3的結(jié)果展示了使用AIBenchmark獲得的一些測試結(jié)果，其中分別包括安卓智能手機(jī)和移動端芯片。完整的列表可以在項(xiàng)目網(wǎng)站上查看。在具體討論測試細(xì)節(jié)之前，我們首先要提到幾個(gè)AndroidNNAPIBugs，這些漏洞同樣影響了表中的一些結(jié)果。首先是Android8.1默認(rèn)NNAPI驅(qū)動的漏洞，卷積運(yùn)算在禁用這些驅(qū)動的情況下要比在啟用時(shí)性能快兩倍。因此在為表3中展示的不同SoC計(jì)算平均runtime時(shí)，我們忽略了手機(jī)測試結(jié)果可能存在的這一問題。

雖然使用Android8.1和Kirin970芯片的華為手機(jī)使用的是他們自己定制的NNAPI實(shí)現(xiàn)，它還是會遇到另外不同的Bug：在長待機(jī)后，麒麟的NPU時(shí)鐘速度會下降，并且在重啟之前不會恢復(fù)。兩個(gè)表中的結(jié)果都是在華為設(shè)備剛啟動時(shí)測試的。最后因?yàn)?.2節(jié)中描述的ByteBuffer問題，在圖像到圖像的測試中使用AndroidNNAPI的RAM消耗要高了兩倍，它所造成的后果可以在最后的內(nèi)存測試中觀察到。

我們在下面總結(jié)了每個(gè)Soc制造商的測試結(jié)果，并描述了市場上對應(yīng)芯片的性能。

高通：驍龍芯片（Snapdragon）現(xiàn)在能為量化神經(jīng)網(wǎng)絡(luò)提供硬件加速（當(dāng)高通的NNAPI驅(qū)動存在時(shí)），不過現(xiàn)有的商業(yè)設(shè)備并不支持浮點(diǎn)模型。包含這些驅(qū)動的第一代智能手機(jī)是配備驍龍845SoC和最新AndroidP固件的OnePlus6。它可以在HexagonDSP上25ms內(nèi)運(yùn)行量化MobileNet模型，這比對應(yīng)CPU速度（60-65ms）快得多。類似的性能在包含相同Hexagon685DSP的驍龍670/710芯片中獲得。帶有Hexagon682的驍龍835和帶有Hexagon680的驍龍636/660/820/821都采用相同的高通68xDSP家族，應(yīng)該具有更長的運(yùn)行時(shí)。

雖然目前高通NNAPI驅(qū)動還沒有所支持加速的浮點(diǎn)模型官方測試，但驍龍625SoC相比于基于CPU的執(zhí)行能實(shí)現(xiàn)兩倍的加速，其中驍龍625SoC可能使用集成Adreno506GPU驅(qū)動程序的Beta版。雖然Adreno506的性能約為130GFLOPs，這意味著驍龍845SoC中的Adreno630（727GFLOPs）能潛在地提供3到4倍的加速，但具體的數(shù)字可能變化很大。

至于與矩陣/深度學(xué)習(xí)計(jì)算相關(guān)的CPU性能，目前最強(qiáng)大的高通核心是驍龍845SoC中的Kryo385Gold。與高通835的Kryo280核心相比，它展現(xiàn)出大約30％的提升。有趣的是，與帶有定制化非Cortex的驍龍820SoC及內(nèi)部的第一代Kryo相比，Kryo280表現(xiàn)出相似或稍微降低的性能（每GHz）。盡管第一代Kryo在設(shè)計(jì)上只有四個(gè)計(jì)算核心，但仍然比帶有更新Kryo260核心的驍龍636/660快一些。以前在2013年由驍龍800/801所代表的Krait微架構(gòu)仍然展現(xiàn)出很有競爭力的結(jié)果，性能優(yōu)于2xx、4xx和6xx系列的大多數(shù)結(jié)果，甚至緊隨基于Cortex-A57微架構(gòu)的810和808芯片的測試結(jié)果。我們還注意到定制的高通CPU核心通常比默認(rèn)ARMCortex架構(gòu)表現(xiàn)出更好的結(jié)果。

華為：盡管海思SoC的CPU性能不如高通的那么令人印象深刻，其集成到麒麟970的NPU為浮點(diǎn)深度學(xué)習(xí)模型提供了巨大的加速效果。尤其是，根據(jù)任務(wù)類型，對比它的CPU它可以提供7-21倍加速的推理，對比總體最優(yōu)的CPU結(jié)果它可以提供4-7倍的更優(yōu)性能。在支持GPU加速的測試2、4、5、8中，它分別需要平均132、274、240和193ms的時(shí)間來處理一張圖像。該NPU僅有的主要缺點(diǎn)是缺乏對量化模型的加速支持。在第一個(gè)測試中，所有的計(jì)算都是在CPU上運(yùn)行的，每張圖像的平均處理時(shí)間是160ms，這相比驍龍845啟用DSP時(shí)的對應(yīng)結(jié)果要高得多。盡管這個(gè)問題可以通過在麒麟的NNAPI驅(qū)動程序中實(shí)現(xiàn)量化模式得到解決，目前這項(xiàng)功能仍處于開發(fā)階段。

至于其它的海思芯片組，目前都不提供AI應(yīng)用的加速，因此所有的計(jì)算都是在CPU上進(jìn)行的。由于所有的海思的SoC都是基于標(biāo)準(zhǔn)的ArmCortex核心，它們的性能和其它有相同Cortex架構(gòu)的芯片組也很相似。

聯(lián)發(fā)科：HelioP60是首個(gè)能利用NNAPI驅(qū)動程序以加速浮點(diǎn)和量化模型的芯片組。量化網(wǎng)絡(luò)在其集成的APU上運(yùn)行，并展示了在第一個(gè)測試中處理一張圖像時(shí)和Hexagon685DSP—21ms相似的性能。浮點(diǎn)網(wǎng)絡(luò)在Mali-G72MP3GPU上執(zhí)行，并對比CPU提供了2-5倍的加速，相比總體的最優(yōu)CPU結(jié)果其運(yùn)行時(shí)要快1.5-2倍。我們應(yīng)該注意所有這些數(shù)值都是在MediaTek的開發(fā)者手機(jī)上獲得的結(jié)果，而僅有的基于HelioP60和NNAPI驅(qū)動程序的市場手機(jī)（vivoV11）得到了稍微差一點(diǎn)的結(jié)果。

其它聯(lián)發(fā)科芯片組目前不支持AI應(yīng)用的加速。它們是在標(biāo)準(zhǔn)ArmCortex設(shè)計(jì)的CPU核心上運(yùn)行的。

三星：截至本文寫作時(shí)，三星的所有SoC都不能提供第三方AI應(yīng)用的加速：所有配置這些芯片組的手機(jī)使用了默認(rèn)的NNAPI驅(qū)動程序。由于最新的Exynos9810SoC擁有相同的Mali-G72顯卡。正如MediaTekP60芯片組一樣（但其有12個(gè)核心而不是3個(gè)），如果ArmNN庫被三星整合到NNAPI驅(qū)動程序中，我們預(yù)期對浮點(diǎn)神經(jīng)網(wǎng)絡(luò)會有3-4的額外加速因子。由于所有近期的SamsungExynos處理器使用了ArmMaliGPU，它們也適用同樣的結(jié)論。

視任務(wù)類型而定，三星的MongooseM3CPU核心對比驍龍845的定制Kryo385核心可以展示顯著更好或者更差的性能，但它們的總體性能是相當(dāng)?shù)摹ongooseM2微架構(gòu)相對于第一個(gè)M1版本有50%的顯著提升，同時(shí)第二代（M2）和第三代（M3）的性能很相似。最新的Exynos8895和9810SoCs的一個(gè)值得注意的問題和它們的集成能耗管理系統(tǒng)（可調(diào)整CPU性能）相關(guān)。它導(dǎo)致了大多數(shù)設(shè)備的非常不穩(wěn)定的結(jié)果：尤其是，幾個(gè)之后在相同的GalaxyS9手機(jī)上運(yùn)行的Benchmark（有10分鐘的間隔，「高性能」模式）都展示了總體分?jǐn)?shù)的50%的變動，從不同設(shè)備獲得的結(jié)果甚至有更大的變動（例如，第七個(gè)測試的200-800ms的處理時(shí)間）。目前，尚未有對不同性能模式的外部控制手段，因?yàn)樗鼈兪腔趦?nèi)部邏輯而自動選取的。

其它：我們還獲得了在其它不常用（如Spreadtrum）或被制造商停產(chǎn)（例如，IntelAtom、NvidiaTegra、TIOMAP）的芯片組上的測試結(jié)果。其中，在支持CUDA和專用于深度神經(jīng)網(wǎng)絡(luò)的cuDNNGPU加速庫的NvidiaTegra平臺上測試AI和深度學(xué)習(xí)時(shí)我們得到了非常有趣的結(jié)果。不幸的是，自2015年以來沒有新的設(shè)備使用過NvidiaSoC，而已有的設(shè)備已經(jīng)停產(chǎn)，并且不會再獲得加速機(jī)器學(xué)習(xí)移動端框架的（NNAPI）驅(qū)動程序。

討論

目前，對機(jī)器學(xué)習(xí)在移動設(shè)備上的軟硬件支持發(fā)展得非常快，每隔幾個(gè)月就有公司宣布里程碑式的技術(shù)。這些技術(shù)當(dāng)然帶來了新的可能性和更高的性能，但目前缺乏標(biāo)準(zhǔn)化要求和公開規(guī)范，造成無法確保對技術(shù)優(yōu)劣勢進(jìn)行客觀評估。下文介紹了我們通過NNAPI驅(qū)動程序使用移動機(jī)器學(xué)習(xí)框架和硬件加速芯片組的體驗(yàn)。

目前，開始在安卓設(shè)備上使用深度學(xué)習(xí)的最簡單方式是使用成熟、相對穩(wěn)定的TensorFlowMobile框架。該框架出現(xiàn)于兩年前，基本上解決了所有主要問題，且人們可在多個(gè)專門網(wǎng)站上找到關(guān)于細(xì)小問題的大量信息。如果硬件加速是關(guān)鍵問題，那么TensorFlowLite仍然可以作為選擇，但是我們不推薦使用它進(jìn)行比用MobileNet或InceptionCNN執(zhí)行圖像分類更復(fù)雜的任務(wù)，因?yàn)樵谝苿悠脚_上使用不標(biāo)準(zhǔn)的網(wǎng)絡(luò)架構(gòu)可能出現(xiàn)偶發(fā)問題。我們還提到從TFMobile到TFLite的遷移相對簡單，因?yàn)樗鼈兪褂玫陌沧烤幊探涌诤芟嗨疲ㄗ畲蟮膮^(qū)別在于TFLite將預(yù)訓(xùn)練模型轉(zhuǎn)換成.tflite，而不是.pb格式），我們可以在TFLite得到更好支持的情況下再進(jìn)行遷移。如果某個(gè)應(yīng)用針對某些特定設(shè)備或SoC，那么對應(yīng)的專用SDK也可以使用，盡管這種情況下開發(fā)可能不那么容易、簡便。至于Caffe2Mobile和其他不那么廣泛使用的框架，目前它們的社區(qū)還比較小，這意味著網(wǎng)絡(luò)上幾乎沒什么教程和問題描述，因此所有出現(xiàn)的問題可能需要通過在對應(yīng)的GitHubrepo中創(chuàng)建新的issue來解決。

對安卓設(shè)備上的AI算法提供硬件支持目前是一個(gè)更有爭議的話題。截至本文寫作時(shí)，常規(guī)的浮點(diǎn)神經(jīng)網(wǎng)絡(luò)的最快運(yùn)行時(shí)屬于裝載了麒麟970的華為手機(jī)，遠(yuǎn)遠(yuǎn)領(lǐng)先于市場平均水平。但是，我們?nèi)砸陀^地看待未來的發(fā)展，我們的分析表明幾乎所有SoC制造商都有潛力使用新的芯片組達(dá)到類似的結(jié)果。下一年年初情況將逐漸明晰，那時(shí)裝載有麒麟980、MediaTekP80和新一代高通、SamsungExynospremiumSoC的設(shè)備將上市。除了性能，我們還考察了它們的能耗，因?yàn)楹碾娺^快會限制它們對一些標(biāo)準(zhǔn)相機(jī)內(nèi)置處理技術(shù)的使用。

我們想解決的最后一個(gè)問題是量化網(wǎng)絡(luò)的使用。它們的目前應(yīng)用很受限，因?yàn)槟壳叭匀粵]有用于量化網(wǎng)絡(luò)的可靠、標(biāo)準(zhǔn)工具，即使是對簡單的圖像分類任務(wù)，更不用說復(fù)雜的任務(wù)了。目前，我們期待該領(lǐng)域的兩種不同開發(fā)方式。第一種，量化問題將在某個(gè)時(shí)刻得到解決，部署在智能手機(jī)上的大多數(shù)神經(jīng)網(wǎng)絡(luò)都能被量化。第二種，支持浮點(diǎn)網(wǎng)絡(luò)的特定NPU變得更加強(qiáng)大、高效，從而不再需要量化。當(dāng)然我們沒辦法輕松地預(yù)測未來，但我們?nèi)詫⒃贏Ibenchmark中使用量化和浮點(diǎn)模型的混合（浮點(diǎn)模型占主導(dǎo)），不過未來的版本中對應(yīng)的比率可能會發(fā)生很大改變。

目前有很多重要的開放性問題可能會在出現(xiàn)新的機(jī)器學(xué)習(xí)相關(guān)軟硬件和新的專用芯片后得到解決，因此我們計(jì)劃出版介紹移動設(shè)備AI加速實(shí)際情況的常規(guī)benchmark報(bào)告，該報(bào)告也會涉及機(jī)器學(xué)習(xí)領(lǐng)域的改變以及AIbenchmark所做出的相應(yīng)調(diào)整。AIBenchmark的最新測試結(jié)果和實(shí)際測試描述將在項(xiàng)目網(wǎng)站上進(jìn)行每月更新。

上一篇你們安全員C證都是怎么考的？

下一篇銀行機(jī)構(gòu)代碼怎么查詢？

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

哪些安卓手機(jī)適合AI應(yīng)用？

AIBenchmark

Benchmark結(jié)果

討論

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

哪些安卓手機(jī)適合AI應(yīng)用？

AIBenchmark

Benchmark結(jié)果

討論

相關(guān)文章