NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些?
本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征。與最近的語言表征模型不同,BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。BERT 是首個(gè)在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型,其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng),刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。
近日,谷歌 AI 的一篇NLP論文引起了社區(qū)極大的關(guān)注與討論,被認(rèn)為是 NLP 領(lǐng)域的極大突破。如谷歌大腦研究科學(xué)家 Thang Luong Twitter 表示這是 NLP 領(lǐng)域的新時(shí)代。
Twitter 上也有眾多研究者參與討論、轉(zhuǎn)發(fā)了這篇論文:
這篇刷新了 11 項(xiàng) NLP 任務(wù)的論文不久之前已經(jīng)上線,讓我們一睹為快:
研究證明語言模型預(yù)訓(xùn)練可以有效改進(jìn)許多自然語言處理任務(wù),包括自然語言推斷、復(fù)述(paraphrasing)等句子層面的任務(wù),以及命名實(shí)體識(shí)別、SQuAD 問答等 token 層面的任務(wù)。前者通過對(duì)句子進(jìn)行整體分析來預(yù)測(cè)句子之間的關(guān)系,后者則要生成 token 級(jí)別的細(xì)粒度輸出。
目前將預(yù)訓(xùn)練語言表征應(yīng)用于下游任務(wù)存在兩種策略:基于特征的策略和微調(diào)策略(fine-tuning)。基于特征的策略(如 ELMo)使用將預(yù)訓(xùn)練表征作為額外特征的任務(wù)專用架構(gòu)。微調(diào)策略(如生成預(yù)訓(xùn)練 Transformer (OpenAI GPT))引入了任務(wù)特定最小參數(shù),通過簡(jiǎn)單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。在之前的研究中,兩種策略在預(yù)訓(xùn)練期間使用相同的目標(biāo)函數(shù),利用單向語言模型來學(xué)習(xí)通用語言表征。
本論文作者(即 Google AI Language 團(tuán)隊(duì)的研究人員)認(rèn)為現(xiàn)有的技術(shù)嚴(yán)重制約了預(yù)訓(xùn)練表征的能力,微調(diào)策略尤其如此。其主要局限在于標(biāo)準(zhǔn)語言模型是單向的,這限制了可以在預(yù)訓(xùn)練期間使用的架構(gòu)類型。例如,OpenAI GPT 使用的是從左到右的架構(gòu),其中每個(gè) token 只能注意 Transformer 自注意力層中的先前 token。這些局限對(duì)于句子層面的任務(wù)而言不是最佳選擇,對(duì)于 token 級(jí)任務(wù)(如 SQuAD 問答)則可能是毀滅性的,因?yàn)樵谶@種任務(wù)中,結(jié)合兩個(gè)方向的語境至關(guān)重要。
本文通過 BERT(Bidirectional Encoder Representations from Transformers)改進(jìn)了基于微調(diào)的策略。BERT 提出一種新的預(yù)訓(xùn)練目標(biāo)——遮蔽語言模型(masked language model,MLM),來克服上文提到的單向局限。MLM 的靈感來自 Cloze 任務(wù)(Taylor, 1953)。MLM 隨機(jī)遮蔽輸入中的一些 token,,目標(biāo)在于僅基于遮蔽詞的語境來預(yù)測(cè)其原始詞匯 id。與從左到右的語言模型預(yù)訓(xùn)練不同,MLM 目標(biāo)允許表征融合左右兩側(cè)的語境,從而預(yù)訓(xùn)練一個(gè)深度雙向 Transformer。除了 MLM,我們還引入了一個(gè)「下一句預(yù)測(cè)」(next sentence prediction)任務(wù),該任務(wù)聯(lián)合預(yù)訓(xùn)練文本對(duì)表征。
本文貢獻(xiàn)如下:
展示了雙向預(yù)訓(xùn)練語言表征的重要性。不同于 Radford 等人(2018)使用單向語言模型進(jìn)行預(yù)訓(xùn)練,BERT 使用 MLM 預(yù)訓(xùn)練深度雙向表征。本研究與 Peters 等人(2018)的研究也不同,后者使用的是獨(dú)立訓(xùn)練的從左到右和從右到左 LM 的淺層級(jí)聯(lián)。
證明了預(yù)訓(xùn)練表征可以消除對(duì)許多精心設(shè)計(jì)的任務(wù)特定架構(gòu)的需求。BERT 是首個(gè)在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型,其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng)。
BERT 刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。本論文還報(bào)告了 BERT 的模型簡(jiǎn)化測(cè)試(ablation study),證明該模型的雙向特性是最重要的一項(xiàng)新貢獻(xiàn)。代碼和預(yù)訓(xùn)練模型將發(fā)布在 goo.gl/language/bert。
論文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
論文地址:https://arxiv.org/pdf/1810.04805.pdf
摘要:本文介紹了一種新的語言表征模型 BERT,意為來自 Transformer 的雙向編碼器表征(Bidirectional Encoder Representations from Transformers)。與最近的語言表征模型(Peters et al., 2018; Radford et al., 2018)不同,BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。因此,預(yù)訓(xùn)練的 BERT 表征可以僅用一個(gè)額外的輸出層進(jìn)行微調(diào),進(jìn)而為很多任務(wù)(如問答和語言推斷任務(wù))創(chuàng)建當(dāng)前最優(yōu)模型,無需對(duì)任務(wù)特定架構(gòu)做出大量修改。
BERT 的概念很簡(jiǎn)單,但實(shí)驗(yàn)效果很強(qiáng)大。它刷新了 11 個(gè) NLP 任務(wù)的當(dāng)前最優(yōu)結(jié)果,包括將 GLUE 基準(zhǔn)提升至 80.4%(7.6% 的絕對(duì)改進(jìn))、將 MultiNLI 的準(zhǔn)確率提高到 86.7%(5.6% 的絕對(duì)改進(jìn)),以及將 SQuAD v1.1 的問答測(cè)試 F1 得分提高至 93.2 分(提高 1.5 分)——比人類表現(xiàn)還高出 2 分。
BERT本節(jié)介紹 BERT 及其實(shí)現(xiàn)細(xì)節(jié)。
模型架構(gòu)
BERT 的模型架構(gòu)是一個(gè)多層雙向 Transformer 編碼器,基于 Vaswani 等人 (2017) 描述的原始實(shí)現(xiàn),在 tensor2tensor 庫(kù)中發(fā)布。由于 Transformer 的使用最近變得很普遍,而且我們的實(shí)現(xiàn)與原始版本實(shí)際相同,我們將不再贅述模型架構(gòu)的背景。
在本文中,我們將層數(shù)(即 Transformer 塊)表示為 L,將隱藏尺寸表示為 H、自注意力頭數(shù)表示為 A。在所有實(shí)驗(yàn)中,我們將前饋/濾波器尺寸設(shè)置為 4H,即 H=768 時(shí)為 3072,H=1024 時(shí)為 4096。我們主要報(bào)告在兩種模型尺寸上的結(jié)果:
BERTBASE: L=12, H=768, A=12, 總參數(shù)=110M
BERTLARGE: L=24, H=1024, A=16, 總參數(shù)=340M
為了比較,BERTBASE 的模型尺寸與 OpenAI GPT 相當(dāng)。然而,BERT Transformer 使用雙向自注意力機(jī)制,而 GPT Transformer 使用受限的自注意力機(jī)制,導(dǎo)致每個(gè) token 只能關(guān)注其左側(cè)的語境。我們注意到,雙向 Transformer 在文獻(xiàn)中通常稱為「Transformer 編碼器」,而只關(guān)注左側(cè)語境的版本則因能用于文本生成而被稱為「Transformer 解碼器」。圖 1 直觀顯示了 BERT、OpenAI GPT 和 ELMo 的比較結(jié)果。
圖 1:預(yù)訓(xùn)練模型架構(gòu)之間的區(qū)別。BERT 使用雙向 Transformer,OpenAI GPT 使用從左到右的 Transformer,ELMo 使用獨(dú)立訓(xùn)練的從左到右和從右到左 LSTM 的級(jí)聯(lián)來生成下游任務(wù)的特征。三種模型中,只有 BERT 表征會(huì)基于所有層中的左右兩側(cè)語境。
預(yù)訓(xùn)練任務(wù)
與 Peters 等人 (2018) 和 Radford 等人 (2018) 不同,我們不使用傳統(tǒng)的從左到右或從右到左的語言模型來預(yù)訓(xùn)練 BERT,而是使用兩個(gè)新型無監(jiān)督預(yù)測(cè)任務(wù)。
任務(wù) #1:Masked LM
為了訓(xùn)練深度雙向表征,我們采取了一個(gè)直接的方法,隨機(jī)遮蔽輸入 token 的某些部分,然后預(yù)測(cè)被遮住的 token。我們將這一步驟稱為「masked LM」(MLM),不過它在文獻(xiàn)中通常被稱為 Cloze 任務(wù) (Taylor, 1953)。在這種情況下,對(duì)應(yīng)遮蔽 token 的最終隱藏向量會(huì)輸入到 softmax 函數(shù)中,并如標(biāo)準(zhǔn) LM 中那樣預(yù)測(cè)所有詞匯的概率。在所做的所有實(shí)驗(yàn)中,我們隨機(jī)遮住了每個(gè)序列中 15% 的 WordPiece token。與去噪自編碼器 (Vincent et al., 2008) 相反,我們僅預(yù)測(cè)遮蔽單詞而非重建整個(gè)輸入。
任務(wù) #2:下一句預(yù)測(cè)
很多重要的下游任務(wù)(如問答(QA)和自然語言推斷(NLI))基于對(duì)兩個(gè)文本句子之間關(guān)系的理解,這種關(guān)系并非通過語言建模直接獲得。為了訓(xùn)練一個(gè)理解句子關(guān)系的模型,我們預(yù)訓(xùn)練了一個(gè)二值化下一句預(yù)測(cè)任務(wù),該任務(wù)可以從任意單語語料庫(kù)中輕松生成。具體來說,選擇句子 A 和 B 作為預(yù)訓(xùn)練樣本:B 有 50% 的可能是 A 的下一句,也有 50% 的可能是來自語料庫(kù)的隨機(jī)句子。
實(shí)驗(yàn)這部分,我們將展示 BERT 在 11 個(gè) NLP 任務(wù)上的微調(diào)結(jié)果。
圖 3:我們的任務(wù)特定模型是由向 BERT 添加了一個(gè)額外的輸出層而形成的,因此一小部分參數(shù)需要從頭開始學(xué)習(xí)。在眾多任務(wù)中,(a) 和 (b) 任務(wù)是序列級(jí)任務(wù),(c) 和 (d) 是 token 級(jí)任務(wù),圖中 E 表示輸入嵌入,T_i 表示 token i 的語境表征,[CLS] 是分類輸出的特殊符號(hào),[SEP] 是分割非連續(xù) token 序列的特殊符號(hào)。
表 1:GLUE 測(cè)試結(jié)果,評(píng)分由 GLUE 評(píng)估服務(wù)器得到。每個(gè)任務(wù)下面的數(shù)字表示訓(xùn)練樣本的數(shù)量。「Average」列與 GLUE 官方分?jǐn)?shù)略微不同,因?yàn)槲覀兣懦擞袉栴}的 WNLI 集。OpenAI GPT = (L=12, H=768, A=12);BERT_BASE = (L=12, H=768, A=12);BERT_LARGE = (L=24, H=1024, A=16)。BERT 和 OpenAI GPT 是單個(gè)模型、單個(gè)任務(wù)。所有結(jié)果來自于以下地址:https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/。
表 2:SQuAD 結(jié)果。BERT 集成是使用不同預(yù)訓(xùn)練檢查點(diǎn)和微調(diào)種子(fine-tuning seed)的 7x 系統(tǒng)。
表 3:CoNLL-2003 命名實(shí)體識(shí)別結(jié)果。超參數(shù)通過開發(fā)集來選擇,得出的開發(fā)和測(cè)試分?jǐn)?shù)是使用這些超參數(shù)進(jìn)行五次隨機(jī) restart 的平均值。