色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

新推出的AI語(yǔ)音理解基準(zhǔn)測(cè)試SuperGLUE

新推出的AI語(yǔ)音理解基準(zhǔn)測(cè)試SuperGLUE?

Facebook 人工智能研究員和 Google 旗下的 DeepMind、華盛頓大學(xué)、以及紐約大學(xué)合作,于今日正式推出了 SuperGLUE 。

作為一個(gè)嚴(yán)格的語(yǔ)義理解基準(zhǔn)測(cè)試項(xiàng)目,其能夠針對(duì)現(xiàn)代高性能語(yǔ)義理解 AI 的性能,展開(kāi)一系列的基準(zhǔn)測(cè)試。

當(dāng)然,SuperGLUE 投入使用的前提,是某會(huì)話 AI 的深度學(xué)習(xí)模型已經(jīng)觸及了天花板,并希望接受更大的挑戰(zhàn)。

【圖自:SuperGLUE,via VentureBeat】

SuperGLUE 使用谷歌的 BERT 作為性能基準(zhǔn)模型,因?yàn)樵缭?2018 年的時(shí)候,它就已經(jīng)在多方面被認(rèn)為是最先進(jìn)的、甚至打敗了新一年的諸多競(jìng)爭(zhēng)對(duì)手,比如微軟的 MT-DNN、谷歌自家的 XLNet、以及 Facebook 的 RoBERTa 。

SuperGLUE 的前身,是紐約大學(xué)、華盛頓大學(xué)和 DeepMind 研究人員于 2018 年 4 月推出的針對(duì)語(yǔ)義理解 AI 的‘通用語(yǔ)義理解評(píng)估’(GLUE)基準(zhǔn)測(cè)試。

發(fā)展到現(xiàn)在的 SuperGLUE,它能夠評(píng)估比 GLUE 更復(fù)雜的任務(wù)表現(xiàn),鼓勵(lì)構(gòu)建能夠賬務(wù)更復(fù)雜或細(xì)微差別的語(yǔ)義理解模型。

據(jù)悉,GLUE 能夠根據(jù) AI 對(duì)自然語(yǔ)言理解(NLU)系統(tǒng)給出的九個(gè)英語(yǔ)短句的識(shí)別處理表現(xiàn),而給出該模型的分值,比如在線影視評(píng)論數(shù)據(jù)集中提取情感細(xì)節(jié)的斯坦福情感樹(shù)庫(kù)(SST-2)。

目前 RoBERTa 在 GLUE 基準(zhǔn)測(cè)試數(shù)據(jù)庫(kù)中的得分為榜上第一,但 9 項(xiàng) GLUE 任務(wù)中拿到了 4 項(xiàng)最高分。不過(guò) SuperGLUE 包含了在一系列困難的 NLP 任務(wù)中測(cè)試創(chuàng)造性解決方案的新方法。

Facebook AI 研究人員在一篇博客文章中稱(chēng):這些任務(wù)側(cè)重于機(jī)器學(xué)習(xí)在諸多核心領(lǐng)域的創(chuàng)新,包括高效采樣、轉(zhuǎn)運(yùn)、多任務(wù)、以及自我監(jiān)督學(xué)習(xí)。

為向其他研究人發(fā)出挑戰(zhàn),SuperGLUE 選擇了各種形式的任務(wù)、更加細(xì)致的問(wèn)題、尚未被最先進(jìn)方案所解決的內(nèi)容、以及很容易被人類(lèi)理解的題目。

簡(jiǎn)而言之,新基準(zhǔn)測(cè)試包括了八項(xiàng)任務(wù),用于測(cè)試 AI 語(yǔ)義理解模型是否遵循基本的因果關(guān)系、或者是否在做閱讀理解時(shí)出現(xiàn)了偏差。

此外,SuperGLUE 包含了性別偏見(jiàn)檢測(cè)工具 Winogender 。至于最終的排行,將在 super.gluebenchmark.com 官網(wǎng)上發(fā)布。感興趣的朋友,可以閱讀 5 月和 7 月份的修訂版論文。

java glue,新推出的AI語(yǔ)音理解基準(zhǔn)測(cè)試SuperGLUE