過去幾年,自然語言生成(NLG)模型得到了巨大的發(fā)展,通讀、總結(jié)文本、以及參與對話的能力都已大幅提升。
為便于研究團(tuán)隊(duì)評估不同NLG模型的性能,搜索巨頭谷歌(Google)特地提出了一個名叫BLEURT量化指標(biāo)。
通常情況下,我們可以通過人工和自動化流程來評估NLG模型,比如雙語評估學(xué)習(xí)(BLEU)。前者的缺點(diǎn)是太費(fèi)人力,后者的優(yōu)勢是具有更高的準(zhǔn)確性。
【來自:MITTechReview】
谷歌研究人員稱,BLEURT是一種針對自然語言模型(NLG)的全新自動化評估指標(biāo),可為不同模型打出可靠的評分,結(jié)果接近、甚至超越了人類指標(biāo)。
據(jù)悉,BLEURT的核心為機(jī)器學(xué)習(xí)。對于任何ML模型,最重要的就是訓(xùn)練用的數(shù)據(jù)有多豐富。然而對于NLG模型來說,其訓(xùn)練數(shù)據(jù)是相當(dāng)有限的。
實(shí)際上,在WMTMetricsTask數(shù)據(jù)集中(目前人類匯聚的最大集合),也僅收集了涵蓋新聞領(lǐng)域的大約26萬數(shù)據(jù)。
若將之用作唯一的訓(xùn)練數(shù)據(jù)集,那WMT度量任務(wù)數(shù)據(jù)集將失去訓(xùn)練模型的通用性和魯棒性。為攻克這一問題,研究人員采取了轉(zhuǎn)移學(xué)習(xí)的方法。
首先,研究團(tuán)隊(duì)使用了BERT的上下文詞,且其已順利聚合到Y(jié)is和BERTscore等NLG量化工具中。
接著,研究人員介紹了一種新穎的預(yù)訓(xùn)練方案,以提升BLEURT的魯棒性和準(zhǔn)確度,同時有助于應(yīng)對模型的質(zhì)量偏移。
在微調(diào)人工量化標(biāo)準(zhǔn)前,BLEURT借助了數(shù)以百萬計的合成句子,對NLG模型展開了“預(yù)熱”訓(xùn)練。其通過來自維基百科的句子、加上隨機(jī)擾動來生成訓(xùn)練數(shù)據(jù)。
研究團(tuán)隊(duì)未手機(jī)人工評分,而是使用了相關(guān)文獻(xiàn)(含BLEU)中的指標(biāo)與模型集合,能夠以極低的代價來擴(kuò)大訓(xùn)練示例的數(shù)量,然后對BLEURT進(jìn)行了兩次預(yù)訓(xùn)練。
其一階段目標(biāo)是語言建模,二階段目標(biāo)則是評估NLG模型,此后團(tuán)隊(duì)在WMT指標(biāo)數(shù)據(jù)集上對模型進(jìn)行了微調(diào)。一旦受過訓(xùn)練,BLEURT就會試著與競爭方案對抗,以證明其由于當(dāng)前的指標(biāo)。
據(jù)悉,BLUERT在Python3上運(yùn)行,且依賴于TensorFlow,詳情可參閱GitHub項(xiàng)目介紹頁。有關(guān)這項(xiàng)研究的詳情,可翻看ArXiv上的預(yù)印本。
最后,研究人員還總結(jié)了其它結(jié)果,比如BLEURT試圖“捕獲表面重疊以外的NLG質(zhì)量”,該指標(biāo)在兩項(xiàng)學(xué)術(shù)基準(zhǔn)評估中獲得了SOTA的評價。