網(wǎng)站導(dǎo)航

NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些

NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些？

本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征。與最近的語言表征模型不同，BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。BERT 是首個(gè)在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型，其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng)，刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。

近日，谷歌 AI 的一篇NLP論文引起了社區(qū)極大的關(guān)注與討論，被認(rèn)為是 NLP 領(lǐng)域的極大突破。如谷歌大腦研究科學(xué)家 Thang Luong Twitter 表示這是 NLP 領(lǐng)域的新時(shí)代。

Twitter 上也有眾多研究者參與討論、轉(zhuǎn)發(fā)了這篇論文：

這篇刷新了 11 項(xiàng) NLP 任務(wù)的論文不久之前已經(jīng)上線，讓我們一睹為快：

研究證明語言模型預(yù)訓(xùn)練可以有效改進(jìn)許多自然語言處理任務(wù)，包括自然語言推斷、復(fù)述（paraphrasing）等句子層面的任務(wù)，以及命名實(shí)體識(shí)別、SQuAD 問答等 token 層面的任務(wù)。前者通過對(duì)句子進(jìn)行整體分析來預(yù)測(cè)句子之間的關(guān)系，后者則要生成 token 級(jí)別的細(xì)粒度輸出。

目前將預(yù)訓(xùn)練語言表征應(yīng)用于下游任務(wù)存在兩種策略：基于特征的策略和微調(diào)策略（fine-tuning）。基于特征的策略（如 ELMo）使用將預(yù)訓(xùn)練表征作為額外特征的任務(wù)專用架構(gòu)。微調(diào)策略（如生成預(yù)訓(xùn)練 Transformer (OpenAI GPT)）引入了任務(wù)特定最小參數(shù)，通過簡(jiǎn)單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。在之前的研究中，兩種策略在預(yù)訓(xùn)練期間使用相同的目標(biāo)函數(shù)，利用單向語言模型來學(xué)習(xí)通用語言表征。

本論文作者（即 Google AI Language 團(tuán)隊(duì)的研究人員）認(rèn)為現(xiàn)有的技術(shù)嚴(yán)重制約了預(yù)訓(xùn)練表征的能力，微調(diào)策略尤其如此。其主要局限在于標(biāo)準(zhǔn)語言模型是單向的，這限制了可以在預(yù)訓(xùn)練期間使用的架構(gòu)類型。例如，OpenAI GPT 使用的是從左到右的架構(gòu)，其中每個(gè) token 只能注意 Transformer 自注意力層中的先前 token。這些局限對(duì)于句子層面的任務(wù)而言不是最佳選擇，對(duì)于 token 級(jí)任務(wù)（如 SQuAD 問答）則可能是毀滅性的，因?yàn)樵谶@種任務(wù)中，結(jié)合兩個(gè)方向的語境至關(guān)重要。

本文通過 BERT（Bidirectional Encoder Representations from Transformers）改進(jìn)了基于微調(diào)的策略。BERT 提出一種新的預(yù)訓(xùn)練目標(biāo)——遮蔽語言模型（masked language model，MLM），來克服上文提到的單向局限。MLM 的靈感來自 Cloze 任務(wù)（Taylor, 1953）。MLM 隨機(jī)遮蔽輸入中的一些 token，，目標(biāo)在于僅基于遮蔽詞的語境來預(yù)測(cè)其原始詞匯 id。與從左到右的語言模型預(yù)訓(xùn)練不同，MLM 目標(biāo)允許表征融合左右兩側(cè)的語境，從而預(yù)訓(xùn)練一個(gè)深度雙向 Transformer。除了 MLM，我們還引入了一個(gè)「下一句預(yù)測(cè)」（next sentence prediction）任務(wù)，該任務(wù)聯(lián)合預(yù)訓(xùn)練文本對(duì)表征。

本文貢獻(xiàn)如下：

展示了雙向預(yù)訓(xùn)練語言表征的重要性。不同于 Radford 等人（2018）使用單向語言模型進(jìn)行預(yù)訓(xùn)練，BERT 使用 MLM 預(yù)訓(xùn)練深度雙向表征。本研究與 Peters 等人（2018）的研究也不同，后者使用的是獨(dú)立訓(xùn)練的從左到右和從右到左 LM 的淺層級(jí)聯(lián)。

證明了預(yù)訓(xùn)練表征可以消除對(duì)許多精心設(shè)計(jì)的任務(wù)特定架構(gòu)的需求。BERT 是首個(gè)在大批句子層面和 token 層面任務(wù)中取得當(dāng)前最優(yōu)性能的基于微調(diào)的表征模型，其性能超越許多使用任務(wù)特定架構(gòu)的系統(tǒng)。

BERT 刷新了 11 項(xiàng) NLP 任務(wù)的當(dāng)前最優(yōu)性能記錄。本論文還報(bào)告了 BERT 的模型簡(jiǎn)化測(cè)試（ablation study），證明該模型的雙向特性是最重要的一項(xiàng)新貢獻(xiàn)。代碼和預(yù)訓(xùn)練模型將發(fā)布在 goo.gl/language/bert。

論文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

論文地址：https://arxiv.org/pdf/1810.04805.pdf

摘要：本文介紹了一種新的語言表征模型 BERT，意為來自 Transformer 的雙向編碼器表征（Bidirectional Encoder Representations from Transformers）。與最近的語言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。因此，預(yù)訓(xùn)練的 BERT 表征可以僅用一個(gè)額外的輸出層進(jìn)行微調(diào)，進(jìn)而為很多任務(wù)（如問答和語言推斷任務(wù)）創(chuàng)建當(dāng)前最優(yōu)模型，無需對(duì)任務(wù)特定架構(gòu)做出大量修改。

BERT 的概念很簡(jiǎn)單，但實(shí)驗(yàn)效果很強(qiáng)大。它刷新了 11 個(gè) NLP 任務(wù)的當(dāng)前最優(yōu)結(jié)果，包括將 GLUE 基準(zhǔn)提升至 80.4%（7.6% 的絕對(duì)改進(jìn)）、將 MultiNLI 的準(zhǔn)確率提高到 86.7%（5.6% 的絕對(duì)改進(jìn)），以及將 SQuAD v1.1 的問答測(cè)試 F1 得分提高至 93.2 分（提高 1.5 分）——比人類表現(xiàn)還高出 2 分。

BERT

本節(jié)介紹 BERT 及其實(shí)現(xiàn)細(xì)節(jié)。

模型架構(gòu)

BERT 的模型架構(gòu)是一個(gè)多層雙向 Transformer 編碼器，基于 Vaswani 等人 (2017) 描述的原始實(shí)現(xiàn)，在 tensor2tensor 庫(kù)中發(fā)布。由于 Transformer 的使用最近變得很普遍，而且我們的實(shí)現(xiàn)與原始版本實(shí)際相同，我們將不再贅述模型架構(gòu)的背景。

在本文中，我們將層數(shù)（即 Transformer 塊）表示為 L，將隱藏尺寸表示為 H、自注意力頭數(shù)表示為 A。在所有實(shí)驗(yàn)中，我們將前饋/濾波器尺寸設(shè)置為 4H，即 H=768 時(shí)為 3072，H=1024 時(shí)為 4096。我們主要報(bào)告在兩種模型尺寸上的結(jié)果：

BERTBASE: L=12, H=768, A=12, 總參數(shù)=110M

BERTLARGE: L=24, H=1024, A=16, 總參數(shù)=340M

為了比較，BERTBASE 的模型尺寸與 OpenAI GPT 相當(dāng)。然而，BERT Transformer 使用雙向自注意力機(jī)制，而 GPT Transformer 使用受限的自注意力機(jī)制，導(dǎo)致每個(gè) token 只能關(guān)注其左側(cè)的語境。我們注意到，雙向 Transformer 在文獻(xiàn)中通常稱為「Transformer 編碼器」，而只關(guān)注左側(cè)語境的版本則因能用于文本生成而被稱為「Transformer 解碼器」。圖 1 直觀顯示了 BERT、OpenAI GPT 和 ELMo 的比較結(jié)果。

圖 1：預(yù)訓(xùn)練模型架構(gòu)之間的區(qū)別。BERT 使用雙向 Transformer，OpenAI GPT 使用從左到右的 Transformer，ELMo 使用獨(dú)立訓(xùn)練的從左到右和從右到左 LSTM 的級(jí)聯(lián)來生成下游任務(wù)的特征。三種模型中，只有 BERT 表征會(huì)基于所有層中的左右兩側(cè)語境。

預(yù)訓(xùn)練任務(wù)

與 Peters 等人 (2018) 和 Radford 等人 (2018) 不同，我們不使用傳統(tǒng)的從左到右或從右到左的語言模型來預(yù)訓(xùn)練 BERT，而是使用兩個(gè)新型無監(jiān)督預(yù)測(cè)任務(wù)。

任務(wù) #1：Masked LM

為了訓(xùn)練深度雙向表征，我們采取了一個(gè)直接的方法，隨機(jī)遮蔽輸入 token 的某些部分，然后預(yù)測(cè)被遮住的 token。我們將這一步驟稱為「masked LM」(MLM)，不過它在文獻(xiàn)中通常被稱為 Cloze 任務(wù) (Taylor, 1953)。在這種情況下，對(duì)應(yīng)遮蔽 token 的最終隱藏向量會(huì)輸入到 softmax 函數(shù)中，并如標(biāo)準(zhǔn) LM 中那樣預(yù)測(cè)所有詞匯的概率。在所做的所有實(shí)驗(yàn)中，我們隨機(jī)遮住了每個(gè)序列中 15% 的 WordPiece token。與去噪自編碼器 (Vincent et al., 2008) 相反，我們僅預(yù)測(cè)遮蔽單詞而非重建整個(gè)輸入。

任務(wù) #2：下一句預(yù)測(cè)

很多重要的下游任務(wù)（如問答（QA）和自然語言推斷（NLI））基于對(duì)兩個(gè)文本句子之間關(guān)系的理解，這種關(guān)系并非通過語言建模直接獲得。為了訓(xùn)練一個(gè)理解句子關(guān)系的模型，我們預(yù)訓(xùn)練了一個(gè)二值化下一句預(yù)測(cè)任務(wù)，該任務(wù)可以從任意單語語料庫(kù)中輕松生成。具體來說，選擇句子 A 和 B 作為預(yù)訓(xùn)練樣本：B 有 50% 的可能是 A 的下一句，也有 50% 的可能是來自語料庫(kù)的隨機(jī)句子。

實(shí)驗(yàn)

這部分，我們將展示 BERT 在 11 個(gè) NLP 任務(wù)上的微調(diào)結(jié)果。

圖 3：我們的任務(wù)特定模型是由向 BERT 添加了一個(gè)額外的輸出層而形成的，因此一小部分參數(shù)需要從頭開始學(xué)習(xí)。在眾多任務(wù)中，(a) 和 (b) 任務(wù)是序列級(jí)任務(wù)，(c) 和 (d) 是 token 級(jí)任務(wù)，圖中 E 表示輸入嵌入，T_i 表示 token i 的語境表征，[CLS] 是分類輸出的特殊符號(hào)，[SEP] 是分割非連續(xù) token 序列的特殊符號(hào)。

表 1：GLUE 測(cè)試結(jié)果，評(píng)分由 GLUE 評(píng)估服務(wù)器得到。每個(gè)任務(wù)下面的數(shù)字表示訓(xùn)練樣本的數(shù)量。「Average」列與 GLUE 官方分?jǐn)?shù)略微不同，因?yàn)槲覀兣懦擞袉栴}的 WNLI 集。OpenAI GPT = (L=12, H=768, A=12)；BERT_BASE = (L=12, H=768, A=12)；BERT_LARGE = (L=24, H=1024, A=16)。BERT 和 OpenAI GPT 是單個(gè)模型、單個(gè)任務(wù)。所有結(jié)果來自于以下地址：https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/。

表 2：SQuAD 結(jié)果。BERT 集成是使用不同預(yù)訓(xùn)練檢查點(diǎn)和微調(diào)種子（fine-tuning seed）的 7x 系統(tǒng)。

表 3：CoNLL-2003 命名實(shí)體識(shí)別結(jié)果。超參數(shù)通過開發(fā)集來選擇，得出的開發(fā)和測(cè)試分?jǐn)?shù)是使用這些超參數(shù)進(jìn)行五次隨機(jī) restart 的平均值。

java 多層for,NLP預(yù)訓(xùn)練模型的研究進(jìn)展有哪些