谷歌公司的科學(xué)家們今年推出了一種新的計(jì)算機(jī)視覺方法,用于實(shí)現(xiàn)手部感知。作為幕后推手,機(jī)器學(xué)習(xí)技術(shù)為提供了強(qiáng)大助力。根據(jù)介紹,該方案能夠在實(shí)機(jī)實(shí)驗(yàn)中僅憑一幀圖像識(shí)別出一只手(或者多只手)上的21個(gè)3D點(diǎn)位。與目前市面的手勢(shì)識(shí)別技術(shù)相比,谷歌的全新技術(shù)不需要依賴臺(tái)式機(jī)來計(jì)算,只要在手機(jī)上就能進(jìn)行實(shí)時(shí)追蹤,并且還能同時(shí)追蹤多只手,可識(shí)別遮擋。
早在今年6月,谷歌就在2019計(jì)算機(jī)視覺與模式識(shí)別大會(huì)上公布了此項(xiàng)技術(shù)的預(yù)覽版本。2月之后,谷歌于美國(guó)時(shí)間8月20日正式宣布將該技術(shù)集成于MediaPipe當(dāng)中。MediaPipe是一套開源跨平臺(tái)框架,用于構(gòu)建多模應(yīng)用機(jī)器學(xué)習(xí)流水線,可以處理不同模態(tài)(例如視頻與音頻)中的感知數(shù)據(jù)。該項(xiàng)目的源代碼以及端到端使用場(chǎng)景目前都已經(jīng)在GitHub上全面公開。
研究工程師Valentin Bazarevsky和Fan Zhang在博文他們的當(dāng)中寫道:“感知手部形狀與運(yùn)動(dòng)姿態(tài)的能力,有望成為改善各類技術(shù)表現(xiàn)及平臺(tái)用戶體驗(yàn)的重要助力。我們希望將這種手部感知功能交付至更為廣泛的研究與開發(fā)社區(qū)處,利用大家的力量共同促進(jìn)創(chuàng)新用例的出現(xiàn),刺激新的應(yīng)用方式并開拓出前所未有的研究途徑。”
據(jù)了解,谷歌的這一技術(shù)包含三套串聯(lián)工作的AI模型:一個(gè)手掌探測(cè)模型(BlazePalm)用于分析框體并返回手部動(dòng)作邊框;一個(gè)手部標(biāo)記模型(Landmark),用于查看由手掌探測(cè)器定義的裁剪后圖像區(qū)域,并返回3D位點(diǎn);一個(gè)手勢(shì)識(shí)別模型,用于將之前計(jì)算得出的位點(diǎn)歸類為一組手勢(shì)。
BlazePalm:手部識(shí)別絕不像聽起來那么簡(jiǎn)單。GlazePalm必須能夠解決手部遮擋這一現(xiàn)實(shí)難題。為此,谷歌團(tuán)隊(duì)訓(xùn)練出一款手掌探測(cè)器BlazePalm——注意,是手掌而不是手部。他們認(rèn)為,對(duì)拳頭這類物體進(jìn)行邊界框描繪,在難度上要比跟蹤手指低得多。具體地,BlazePalm可以識(shí)別多種不同手掌大小,具備較大的縮放范圍,還能識(shí)別手部遮擋,能通過識(shí)別手臂、軀干或個(gè)人特征等信息準(zhǔn)確定位手部。除此之外,這種方式還有另一大優(yōu)勢(shì),就是能夠很好地兼容握手等特殊場(chǎng)景,利用忽略其它寬高比條件的方形邊框模擬手掌,從而將所需的3D點(diǎn)數(shù)縮減至以往的三分之一到五分之一。據(jù)統(tǒng)計(jì),經(jīng)過訓(xùn)練之后,BlazePalm識(shí)別手掌的準(zhǔn)確率可以達(dá)到95.7%。
Landmark:在手掌檢測(cè)之后,手部標(biāo)記模型開始接管,負(fù)責(zé)在檢測(cè)到的手部區(qū)域之內(nèi)建立21個(gè)由手到肘的3D定位坐標(biāo)。在訓(xùn)練當(dāng)中,模型要求研究人員手動(dòng)注釋多達(dá)3萬份真實(shí)場(chǎng)景下的圖像,并立足多種背景對(duì)相應(yīng)坐標(biāo)進(jìn)行渲染和映射,最終創(chuàng)建出高質(zhì)量的合成手部模型。據(jù)統(tǒng)計(jì),在經(jīng)過訓(xùn)練后,算法的平均回歸誤差可降低到13.4%。
手勢(shì)識(shí)別模型:流水線上的最后一步是手勢(shì)識(shí)別,該模型利用關(guān)節(jié)旋轉(zhuǎn)角度來確定每根手指的狀態(tài)(如彎曲或伸直),并將手指狀態(tài)集合與預(yù)定義的手勢(shì)映射起來,進(jìn)而預(yù)測(cè)基礎(chǔ)的靜態(tài)手勢(shì)。Bazarevsky和Zhang介紹稱,該模型能夠識(shí)別來自多種文化(例如美國(guó)、歐洲與中國(guó))的算數(shù)手勢(shì),以及握拳、“OK”、“搖滾”、“蜘蛛俠”等常見手勢(shì)。
除此之外,這些模型也可以執(zhí)行對(duì)應(yīng)的單獨(dú)任務(wù),例如利用顯卡進(jìn)行圖像裁剪與渲染,從而節(jié)約計(jì)算資源;并且,手掌探測(cè)模型只有在必要時(shí)才運(yùn)行——因?yàn)樵诖蠖鄶?shù)時(shí)段內(nèi),后續(xù)視頻幀內(nèi)的手部位置只憑計(jì)算出的手部關(guān)鍵點(diǎn)即可推理得出,不再需要手掌探測(cè)器的參與。也就是說,只有當(dāng)推理置信度低于某個(gè)閾值時(shí),手部檢測(cè)模型才會(huì)重新介入。