国产欧美一区二区三区,【乱子伦】国产精品,亚洲精品国产精品国自产99.,香蕉久久国产AV一区二区,国产麻豆剧传媒精品国产AV,国产一区二区

POS機代理咨詢：18926793742

pos機器模型,15個預(yù)訓(xùn)練模型對比分析與剖析

新聞資訊 | 2023-04-23 13:40 | 投稿人：pos機之家

網(wǎng)上有很多關(guān)于pos機器模型,15個預(yù)訓(xùn)練模型對比分析與剖析的知識，也有很多人為大家解答關(guān)于pos機器模型的問題，今天pos機之家(m.mxllmx.com)為大家整理了關(guān)于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、pos機器模型

pos機器模型

前言

在之前寫過的《NLP的游戲規(guī)則從此改寫？從word2vec, ELMo到BERT》一文中，介紹了從word2vec到ELMo再到BERT的發(fā)展路徑。而在BERT出現(xiàn)之后的這大半年的時間里，模型預(yù)訓(xùn)練的方法又被Google、Facebook、微軟、百度、OpenAI等極少數(shù)幾個玩得起游戲的核心玩家反復(fù)迭代了若干版，一次次的刷新我們這些吃瓜群眾的案板上的瓜。

有沒有感覺出瓜速度太快以至于吃速跟不上？不用擔(dān)心，小編幫你們找來了這篇總結(jié)的恰到好處的文章，對ELMo以來的15個代表性的預(yù)訓(xùn)練語言模型進行了多維度的對比和分析。尤其是近期找工作的小伙伴們注意啦，這篇文章里面提出來的一些問題很適合作為面試考點（劃掉，交流點）噢~

首先上一張鎮(zhèn)樓專用圖，看一下ELMo以來的預(yù)訓(xùn)練語言模型發(fā)展的概況

然后上本文正餐，一個高能的question list，這也是本文寫作的主線。

Question List

Q1：從不同維度對比各【預(yù)訓(xùn)練語言模型】？Q2：基于深度學(xué)習(xí)的NLP特征抽取機制有哪些？各有哪些優(yōu)缺點？Q3：自回歸和自編碼語言模型各有什么優(yōu)缺點？Q4：單向模型的內(nèi)核機制是怎樣的？有哪些缺點？Q5：Transformer內(nèi)部機制的深入理解：為什么是縮放點積，而不是點積模型？相較于加性模型，點積模型具備哪些優(yōu)點？多頭機制為什么有效？Q6-Q10：BERT內(nèi)核機制探究BERT為什么如此有效？BERT存在哪些優(yōu)缺點？BERT擅長處理哪些下游NLP任務(wù)？BERT基于“字輸入”還是“詞輸入”好？（對于中文任務(wù)）BERT為什么不適用于自然語言生成任務(wù)（NLG）？Q11-Q15：針對BERT原生模型的缺點，后續(xù)的BERT系列模型是：如何改進【生成任務(wù)】的？如何引入【知識】的？如何引入【多任務(wù)學(xué)習(xí)機制】的？如何改進【mask策略】的？如何進行【精細調(diào)參】的？Q16：XLNet提出的背景是怎樣的？Q17：XLNet為何如此有效：為什么PLM可以實現(xiàn)雙向上下文的建模？怎么解決沒有目標(target)位置信息的問題？Q18：Transformer-XL怎么實現(xiàn)對長文本建模？

下面本文將從以下幾個方面來對上述問題一一探討

一. 不同視角下的預(yù)訓(xùn)練語言模型對比

二.預(yù)訓(xùn)練語言模型的基礎(chǔ)：特征抽取機制+語言模型的分類

三.單向模型回顧+內(nèi)核機制探究

四.BERT的內(nèi)核機制探究

五.BERT系列模型進展介紹

六.XLNET的內(nèi)核機制探究

七.預(yù)訓(xùn)練語言模型的未來

一、不同視角下的預(yù)訓(xùn)練語言模型對比

Q1：從不同維度對比【預(yù)訓(xùn)練語言模型】

從特征抽取、預(yù)訓(xùn)練語言模型目標、BERT系列模型的改進方向、特征表示4個視角，對比預(yù)訓(xùn)練語言模型：

不同的特征抽取機制RNNs：ELMO/ULMFiT/SiATL；Transformer：GPT1.0/GPT2.0/BERT系列模型；Transformer-XL：XLNet；不同的預(yù)訓(xùn)練語言目標自編碼（AutoEncode）：BERT系列模型；自回歸（AutoRegression）：單向模型（ELMO / ULMFiT / SiATL / GPT1.0 / GPT2.0）和XLNet；BERT系列模型的改進引入常識：ERNIE1.0 / ERNIE(THU) / ERNIE2.0（簡稱為“ERNIE系列”）；引入多任務(wù)學(xué)習(xí)：MTDNN/ERNIE2.0；基于生成任務(wù)的改進：MASS/UNILM；不同的mask策略：WWM/ERNIE系列/SpanBERT；精細調(diào)參：RoBERTa；特征表示（是否能表示上下文）單向特征表示：單向模型（ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0）；雙向特征表示：BERT系列模型+XLNet；

二、預(yù)訓(xùn)練語言模型的基礎(chǔ)：特征抽取機制+語言模型的分類

Q2：基于深度學(xué)習(xí)的NLP特征抽取機制有哪些？各有哪些優(yōu)缺點？

1）能否處理長距離依賴問題

長距離依賴建模能力：Transformer-XL > Transformer > RNNs > CNNs

MLP：不考慮序列（位置）信息，不能處理變長序列，如NNLM和word2vec；CNNs：考慮序列（位置）信息，不能處理長距離依賴，聚焦于n-gram提取，pooling操作會導(dǎo)致序列（位置）信息丟失；RNNs：天然適合處理序列（位置）信息，但仍不能處理長距離依賴（由于BPTT導(dǎo)致的梯度消失等問題），故又稱之為“較長的短期記憶單元(LSTM)”；Transformer/Transformer-XL：self-attention解決長距離依賴，無位置偏差；

2）前饋/循環(huán)網(wǎng)絡(luò) or 串行/并行計算

MLP/CNNs/Transformer：前饋/并行RNNs/ Transformer-XL：循環(huán)/串行：

3）計算時間復(fù)雜度（序列長度n，embedding size為d，filter大小k）

CNNs：RNNs：Self Attention：

Q3：自回歸和自編碼語言模型各有什么優(yōu)缺點？

1）自回歸語言模型

優(yōu)點：文本序列聯(lián)合概率的密度估計，即為傳統(tǒng)的語言模型，天然適合處理自然生成任務(wù)；缺點：聯(lián)合概率按照文本序列從左至右分解（順序拆解），無法通過上下文信息進行雙向特征表征；代表模型：ELMO/GPT1.0/GPT2.0；改進：XLNet將傳統(tǒng)的自回歸語言模型進行推廣，將順序拆解變?yōu)殡S機拆解（排列語言模型），產(chǎn)生上下文相關(guān)的雙向特征表示；

2）自編碼語言模型

優(yōu)點：本質(zhì)為降噪自編碼特征表示，通過引入噪聲[MASK]構(gòu)建MLM，獲取上下文相關(guān)的雙向特征表示；缺點：引入獨立性假設(shè)，為聯(lián)合概率的有偏估計，沒有考慮預(yù)測[MASK]之間的相關(guān)性不適合直接處理生成任務(wù)，MLM預(yù)訓(xùn)練目標的設(shè)置造成預(yù)訓(xùn)練過程和生成過程不一致；預(yù)訓(xùn)練時的[MASK]噪聲在finetune階段不會出現(xiàn)，造成兩階段不匹配問題；代表模型：BERT系列模型；

三、單向模型回顧+內(nèi)核機制探究

Q4：單向模型的內(nèi)核機制是怎樣的？有哪些缺點？

1）ELMo (Allen Institute)[6]

要點：引入雙向語言模型，其實是2個單向語言模型（前向和后向）的集成；通過保存預(yù)訓(xùn)練好的2層biLSTM，通過特征集成或finetune應(yīng)用于下游任務(wù)；缺點：本質(zhì)上為自回歸語言模型，只能獲取單向的特征表示，不能同時獲取上下文表示；LSTM不能解決長距離依賴。為什么不能用biLSTM構(gòu)建雙向語言模型？不能采取2層biLSTM同時進行特征抽取構(gòu)建雙向語言模型，否則會出現(xiàn)標簽泄漏的問題；因此ELMO前向和后向的LSTM參數(shù)獨立，共享詞向量，獨立構(gòu)建語言模型；

2）ULMFiT (fast.ai) / SiATL

2.1）ULMFiT[7]要點：

三階段訓(xùn)練：LM預(yù)訓(xùn)練+精調(diào)特定任務(wù)LM+精調(diào)特定分類任務(wù)；特征抽?。?層AWD-LSTM；精調(diào)特定分類任務(wù)：逐層解凍；

2.2) SiATL[8]要點：

二階段訓(xùn)練：LM預(yù)訓(xùn)練+特定任務(wù)精調(diào)分類任務(wù)（引入LM作為輔助目標，輔助目標對于小數(shù)據(jù)有用，與GPT相反）； - 特征抽取：LSTM+self-attention；精調(diào)特定分類任務(wù)：逐層解凍；都通過一些技巧解決finetune過程中的災(zāi)難性遺忘問題：如果預(yù)訓(xùn)練用的無監(jiān)督數(shù)據(jù)和任務(wù)數(shù)據(jù)所在領(lǐng)域不同，逐層解凍帶來的效果更明顯[9]；

3）GPT1.0 / GPT2.0 (OpenAI)

GPT1.0[10]要點：采用Transformer進行特征抽取，首次將Transformer應(yīng)用于預(yù)訓(xùn)練語言模型；finetune階段引入語言模型輔助目標（輔助目標對于大數(shù)據(jù)集有用，小數(shù)據(jù)反而有所下降，與SiATL相反），解決finetune過程中的災(zāi)難性遺忘；預(yù)訓(xùn)練和finetune一致，統(tǒng)一二階段框架；GPT2.0[11]要點：沒有針對特定模型的精調(diào)流程：GPT2.0認為預(yù)訓(xùn)練中已包含很多特定任務(wù)所需的信息。生成任務(wù)取得很好效果，使用覆蓋更廣、質(zhì)量更高的數(shù)據(jù)；缺點：依然為單向自回歸語言模型，無法獲取上下文相關(guān)的特征表示；

四、BERT內(nèi)核機制探究

這一部分對BERT的內(nèi)核機制進行介紹，在回答“BERT為什么如此有效？”之前，首先介紹Transformer的內(nèi)核機制。

Q5：Transformer[12]內(nèi)部機制的深入理解（回顧）

1）Multi-Head Attention和Scaled Dot-Product Attention

本質(zhì)是self attention通過attention mask動態(tài)編碼變長序列，解決長距離依賴、無位置偏差、可并行計算

為什么是縮放點積，而不是點積模型？當輸入信息的維度 d 比較高，點積模型的值通常有比較大方差，從而導(dǎo)致 softmax 函數(shù)的梯度會比較小。因此，縮放點積模型可以較好地解決這一問題。為什么是雙線性點積模型（經(jīng)過線性變換Q K）？雙線性點積模型，引入非對稱性，更具健壯性（Attention mask對角元素值不一定是最大的，也就是說當前位置對自身的注意力得分不一定最高）。相較于加性模型，點積模型具備哪些優(yōu)點？常用的Attention機制為加性模型和點積模型，理論上加性模型和點積模型的復(fù)雜度差不多，但是點積模型在實現(xiàn)上可以更好地利用矩陣乘積，從而計算效率更高（實際上，隨著維度d的增大，加性模型會明顯好于點積模型）。多頭機制為什么有效？類似于CNN中通過多通道機制進行特征選擇；Transformer中先通過切頭（spilt）再分別進行Scaled Dot-Product Attention，可以使進行點積計算的維度d不大（防止梯度消失），同時縮小attention mask矩陣。

2）Position-wise Feed-Forward Networks

FFN 將每個位置的Multi-Head Attention結(jié)果映射到一個更大維度的特征空間，然后使用ReLU引入非線性進行篩選，最后恢復(fù)回原始維度。Transformer在拋棄了 LSTM 結(jié)構(gòu)后，F(xiàn)FN 中的 ReLU成為了一個主要的提供非線性變換的單元。

3）Positional Encoding

將Positional Embedding改為Positional Encoding，主要的區(qū)別在于Positional Encoding是用公式表達的、不可學(xué)習(xí)的，而Positional Embedding是可學(xué)習(xí)的（如BERT），兩種方案的訓(xùn)練速度和模型精度差異不大；但是Positional Embedding位置編碼范圍是固定的，而Positional Encoding編碼范圍是不受限制的。

為什么引入和建模Positional Encoding？引入和是為了使模型實現(xiàn)對相對位置的學(xué)習(xí)，兩個位置 pos 和 pos+k 的位置編碼是固定間距k的線性變化：可以證明：間隔為k的任意兩個位置編碼的歐式空間距離是恒等的，只與k有關(guān)。

Q6：BERT[13]為什么如此有效？

引入Masked Language Model(MLM)預(yù)訓(xùn)練目標，能夠獲取上下文相關(guān)的雙向特征表示；引入Next Sentence Prediction(NSP)預(yù)訓(xùn)練目標，擅長處理句子或段落的匹配任務(wù)；引入強大的特征抽取機制Transformer(多種機制并存)：Multi-Head self attention：多頭機制類似于“多通道”特征抽取，self attention通過attention mask動態(tài)編碼變長序列，解決長距離依賴（無位置偏差）、可并行計算；Feed-forward ：在位置維度計算非線性層級特征；Layer Norm & Residuals：加速訓(xùn)練，使“深度”網(wǎng)絡(luò)更加健壯；引入大規(guī)模、高質(zhì)量的文本數(shù)據(jù)；

Q7：BERT存在哪些優(yōu)缺點？

優(yōu)點：能夠獲取上下文相關(guān)的雙向特征表示；缺點：生成任務(wù)表現(xiàn)不佳：預(yù)訓(xùn)練過程和生成過程的不一致，導(dǎo)致在生成任務(wù)上效果不佳；采取獨立性假設(shè)：沒有考慮預(yù)測[MASK]之間的相關(guān)性，是對語言模型聯(lián)合概率的有偏估計（不是密度估計）；輸入噪聲[MASK]，造成預(yù)訓(xùn)練-精調(diào)兩階段之間的差異；無法文檔級別的NLP任務(wù)，只適合于句子和段落級別的任務(wù)；

Q8：BERT擅長處理哪些下游NLP任務(wù)[14]？

1. 適合句子和段落級別的任務(wù)，不適用于文檔級別的任務(wù)；

2. 適合處理高層語義信息提取的任務(wù)，對淺層語義信息提取的任務(wù)的提升效果不大（如一些簡單的文本分類任務(wù)）；

3. 適合處理句子/段落的匹配任務(wù)；因此，在一些任務(wù)中可以構(gòu)造輔助句（類似匹配任務(wù)）實現(xiàn)效果提升（如關(guān)系抽取/情感挖掘等任務(wù)）；

4. 不適合處理NLG任務(wù)；

Q9：BERT基于“字輸入”還是“詞輸入”好？（對于中文任務(wù)）

1. 如果基于“詞輸入”，會加劇OOV問題，會增大輸入空間，需要利用大得多的語料去學(xué)習(xí)輸入空間到標簽空間的函數(shù)映射。

2. 隨著Transfomer特征抽取能力，分詞不再成為必要，詞級別的特征學(xué)習(xí)可以納入為內(nèi)部特征進行表示學(xué)習(xí)。

Q10：BERT為什么不適用于自然語言生成任務(wù)（NLG）？

1. 由于BERT本身在預(yù)訓(xùn)練過程和生成過程的不一致，并沒有做生成任務(wù)的相應(yīng)機制，導(dǎo)致在生成任務(wù)上效果不佳，不能直接應(yīng)用于生成任務(wù)。

2. 如果將BERT或者GPT用于Seq2Seq的自然語言生成任務(wù)，可以分別進行預(yù)訓(xùn)練編碼器和解碼器，但是編碼器-注意力-解碼器結(jié)構(gòu)沒有被聯(lián)合訓(xùn)練，BERT和GPT在條件生成任務(wù)中只是次優(yōu)效果。

五、BERT系列模型進展介紹

這一部分介紹一些模型，它們均是對BERT原生模型在一些方向的改進。

Q11：針對BERT原生模型，后續(xù)的BERT系列模型是如何改進【生成任務(wù)】的？

1）MASS(微軟)[15]

統(tǒng)一預(yù)訓(xùn)練框架:通過類似的Seq2Seq框架，在預(yù)訓(xùn)練階段統(tǒng)一了BERT和LM模型；Encoder中理解unmasked tokens；Decoder中需要預(yù)測連續(xù)的[mask]tokens，獲取更多的語言信息；Decoder從Encoder中抽取更多信息；當k=1或者n時，MASS的概率形式分別和BERT中的MLM以及GPT中標準的LM一致（k為mask的連續(xù)片段長度））

2）UNILM (微軟)[16]

統(tǒng)一預(yù)訓(xùn)練框架:和直接從mask矩陣的角度統(tǒng)一BERT和LM；3個Attention Mask矩陣：LM、MLM、Seq2Seq LM；注意：UNILM中的LM并不是傳統(tǒng)的LM模型，仍然是通過引入[MASK]實現(xiàn)的；

Q12：針對BERT原生模型，后續(xù)的BERT系列模型是如何引入【知識】的？

1）ERNIE 1.0 (百度)[17]

在預(yù)訓(xùn)練階段引入知識（實際是預(yù)先識別出的實體），引入3種[MASK]策略預(yù)測：Basic-Level Masking：跟BERT一樣，對subword進行mask，無法獲取高層次語義；Phrase-Level Masking：mask連續(xù)短語；Entity-Level Masking：mask實體；

2）ERNIE (THU)[18]

基于BERT預(yù)訓(xùn)練原生模型，將文本中的實體對齊到外部的知識圖譜，并通過知識嵌入得到實體向量作為ERNIE的輸入；由于語言表征的預(yù)訓(xùn)練過程和知識表征過程有很大的不同，會產(chǎn)生兩個獨立的向量空間。為解決上述問題，在有實體輸入的位置，將實體向量和文本表示通過非線性變換進行融合，以融合詞匯、句法和知識信息；引入改進的預(yù)訓(xùn)練目標 Denoising entity auto-encoder (DEA)：要求模型能夠根據(jù)給定的實體序列和文本序列來預(yù)測對應(yīng)的實體；

Q13：針對BERT原生模型，后續(xù)的BERT系列模型是如何引入【多任務(wù)學(xué)習(xí)機制】的？

多任務(wù)學(xué)習(xí)(Multi-task Learning)[19]是指同時學(xué)習(xí)多個相關(guān)任務(wù)，讓這些任務(wù)在學(xué)習(xí)過程中共享知識，利用多個任務(wù)之間的相關(guān)性來改進模型在每個任務(wù)的性能和泛化能力。多任務(wù)學(xué)習(xí)可以看作是一種歸納遷移學(xué)習(xí)，即通過利用包含在相關(guān)任務(wù)中的信息作為歸納偏置(Inductive Bias)來提高泛化能力。多任務(wù)學(xué)習(xí)的訓(xùn)練機制分為同時訓(xùn)練和交替訓(xùn)練。

1）MTDNN(微軟)[20]：在下游任務(wù)中引入多任務(wù)學(xué)習(xí)機制

2）ERNIE 2.0 (百度)[21]：在預(yù)訓(xùn)練階段引入多任務(wù)學(xué)習(xí)

MTDNN是在下游任務(wù)引入多任務(wù)機制的，而ERNIE 2.0 是在預(yù)訓(xùn)練引入多任務(wù)學(xué)習(xí)（與先驗知識庫進行交互），使模型能夠從不同的任務(wù)中學(xué)到更多的語言知識。主要包含3個方面的任務(wù)：word-aware 任務(wù)：捕捉詞匯層面的信息；structure-aware 任務(wù)：捕捉句法層面的信息；semantic-aware 任務(wù)：捕捉語義方面的信息；主要的方式是構(gòu)建增量學(xué)習(xí)（后續(xù)可以不斷引入更多的任務(wù)）模型，通過多任務(wù)學(xué)習(xí)持續(xù)更新預(yù)訓(xùn)練模型，這種連續(xù)交替的學(xué)習(xí)范式不會使模型忘記之前學(xué)到的語言知識。將3大類任務(wù)的若干個子任務(wù)一起用于訓(xùn)練，引入新的任務(wù)時會將繼續(xù)引入之前的任務(wù)，防止忘記之前已經(jīng)學(xué)到的知識，具體是一個逐漸增加任務(wù)數(shù)量的過程[22]： (task1)->(task1,task2)->(task1,task2,task3)->…->(task1，task2,…,taskN)，

Q14：針對BERT原生模型，后續(xù)的BERT系列模型是如何改進【mask策略】的？

原生BERT模型：按照subword維度進行mask，然后進行預(yù)測；BERT WWM(Google)：按照whole word維度進行mask，然后進行預(yù)測；ERNIE等系列：引入外部知識，按照entity維度進行mask，然后進行預(yù)測；SpanBert：不需要按照先驗的詞/實體/短語等邊界信息進行mask，而是采取隨機mask：采用Span Masking：根據(jù)幾何分布，隨機選擇一段空間長度，之后再根據(jù)均勻分布隨機選擇起始位置，最后按照長度mask；通過采樣，平均被遮蓋長度是3.8 個詞的長度；引入Span Boundary Objective：新的預(yù)訓(xùn)練目標旨在使被mask的Span 邊界的詞向量能學(xué)習(xí)到 Span中被mask的部分；新的預(yù)訓(xùn)練目標和MLM一起使用；注意：BERT WWM、ERNIE等系列、SpanBERT旨在隱式地學(xué)習(xí)預(yù)測詞（mask部分本身的強相關(guān)性）之間的關(guān)系[23]，而在 XLNet 中，是通過 PLM 加上自回歸方式來顯式地學(xué)習(xí)預(yù)測詞之間關(guān)系；

Q15：針對BERT原生模型，后續(xù)的BERT系列模型是如何進行【精細調(diào)參】的？

RoBERTa(FaceBook)[24]

丟棄NSP，效果更好；動態(tài)改變mask策略，把數(shù)據(jù)復(fù)制10份，然后統(tǒng)一進行隨機mask；對學(xué)習(xí)率的峰值和warm-up更新步數(shù)作出調(diào)整；在更長的序列上訓(xùn)練：不對序列進行截短，使用全長度序列；

六、XLNet的內(nèi)核機制探究

在BERT系列模型后，Google發(fā)布的XLNet在問答、文本分類、自然語言理解等任務(wù)上都大幅超越BERT；XLNet的提出是對標準語言模型（自回歸）的一個復(fù)興[25]，提出一個框架來連接語言建模方法和預(yù)訓(xùn)練方法。

Q16：XLNet[26]提出的背景是怎樣的？

對于ELMO、GPT等預(yù)訓(xùn)練模型都是基于傳統(tǒng)的語言模型（自回歸語言模型AR），自回歸語言模型天然適合處理生成任務(wù)，但是無法對雙向上下文進行表征，因此人們反而轉(zhuǎn)向自編碼思想的研究（如BERT系列模型）；自編碼語言模型（AE）雖然可以實現(xiàn)雙向上下文進行表征，但是：BERT系列模型引入獨立性假設(shè)，沒有考慮預(yù)測[MASK]之間的相關(guān)性；MLM預(yù)訓(xùn)練目標的設(shè)置造成預(yù)訓(xùn)練過程和生成過程不一致；預(yù)訓(xùn)練時的[MASK]噪聲在finetune階段不會出現(xiàn)，造成兩階段不匹配問題；有什么辦法能構(gòu)建一個模型使得同時具有AR和AE的優(yōu)點并且沒有它們?nèi)秉c呢？

Q17：XLNet為何如此有效：內(nèi)核機制分析

1）排列語言模型（Permutation LM，PLM）

如果衡量序列中被建模的依賴關(guān)系的數(shù)量，標準的LM可以達到上界，不像MLM一樣，LM不依賴于任何獨立假設(shè)。借鑒 NADE[27]的思想，XLNet將標準的LM推廣到PLM。

為什么PLM可以實現(xiàn)雙向上下文的建模？PLM的本質(zhì)就是LM聯(lián)合概率的多種分解機制的體現(xiàn)；將LM的順序拆解推廣到隨機拆解，但是需要保留每個詞的原始位置信息（PLM只是語言模型建模方式的因式分解/排列，并不是詞的位置信息的重新排列?。┤绻闅v ! 種分解方法，并且模型參數(shù)是共享的，PLM就一定可以學(xué)習(xí)到各種雙向上下文；換句話說，當我們把所有可能的! 排列都考慮到的時候，對于預(yù)測詞的所有上下文就都可以學(xué)習(xí)到了！由于遍歷 ! 種路徑計算量非常大（對于10個詞的句子，10!=3628800）。因此實際只能隨機的采樣!里的部分排列，并求期望；

2）Two-Stream Self-Attention

如果采取標準的Transformer來建模PLM，會出現(xiàn)沒有目標(target)位置信息的問題。問題的關(guān)鍵是模型并不知道要預(yù)測的到底是哪個位置的詞，從而導(dǎo)致具有部分排列下的PLM在預(yù)測不同目標詞時的概率是相同的。

怎么解決沒有目標(target)位置信息的問題？對于沒有目標位置信息的問題，XLNet 引入了Two-Stream Self-Attention：Query 流就為了預(yù)測當前詞，只包含位置信息，不包含詞的內(nèi)容信息；Content 流主要為 Query 流提供其它詞的內(nèi)容向量，包含位置信息和內(nèi)容信息；

3）融入Transformer-XL的優(yōu)點（具體見Q18）

Q18：Transformer-XL[28]怎么實現(xiàn)對長文本建模？

BERT(Transformer)的最大輸入長度為512，那么怎么對文檔級別的文本建模？vanilla model進行Segment，但是會存在上下文碎片化的問題（無法對連續(xù)文檔的語義信息進行建模），同時推斷時需要重復(fù)計算，因此推斷速度會很慢；Transformer-XL改進對于每一個segment都應(yīng)該具有不同的位置編碼，因此Transformer-XL采取了相對位置編碼；前一個segment計算的representation被修復(fù)并緩存，以便在模型處理下一個新的segment時作為擴展上下文resume；最大可能依賴關(guān)系長度增加了N倍，其中N表示網(wǎng)絡(luò)的深度；解決了上下文碎片問題，為新段前面的token提供了必要的上下文；由于不需要重復(fù)計算，Transformer-XL在語言建模任務(wù)的評估期間比vanilla Transformer快1800+倍；引入recurrence mechanism(不采用BPTT方式求導(dǎo))：引入相對位置編碼方案：

七、預(yù)訓(xùn)練語言模型的未來

上述的【預(yù)訓(xùn)練語言模型】主要從2大方面進行介紹：一是總的對比；二是分別介紹單向語言模型、BERT系列模型、XLNet模型。

可以看出，未來【預(yù)訓(xùn)練語言模型】更多的探索方向主要為[25]：

復(fù)興語言模型：進一步改進語言模型目標，不斷突破模型的上界；大數(shù)據(jù)、大算力：將大數(shù)據(jù)、大算力推到極致；更快的推斷：輕量級模型是否有可能達到SOTA效果？引入更豐富的知識信息，更精細的調(diào)參，更有價值的MASK策略；統(tǒng)一條件生成任務(wù)框架，如基于XLNet統(tǒng)一編碼和解碼任務(wù)，同時可考慮更快的解碼方式；

參考文獻

[1] NLP將迎來黃金十年 https://www.msra.cn/zh-cn/news/executivebylines/tech-bylines-nlp

[2] a review of the recent history of nlp

[3] AIS：ACL2019進展報告

[4] ACL 主席周明：一起擁抱 ACL 和 NLP 的光明未來

[5] 自然語言處理中的語言模型預(yù)訓(xùn)練方法 https://www.jiqizhixin.com/articles/2018-10-22-3

[6] ELMO:Deep contextualized word representations

[7] ULMFiT：Universal Language Model Fine-tuning)

[8] SiATL：An Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models

[9] BERT時代與后時代的NLP https://zhuanlan.zhihu.com/p/66676144

[10] GPT:Improving Language Understanding by Generative Pre-Training

[11] GPT2.0:Language Models are Unsupervised Multitask Learners

[12] Transformer:Attention is all you need

[13] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[14] Bert時代的創(chuàng)新（應(yīng)用篇）：Bert在NLP各領(lǐng)域的應(yīng)用進展 https://zhuanlan.zhihu.com/p/68446772

[15] MASS: Masked Sequence to Sequence Pre-training for Language Generation

[16] UNILM：Unified Language Model Pre-training for Natural Language Understanding and Generation

[17] ERNIE: Enhanced Representation through Knowledge Integration

[18] ERNIE: Enhanced Language Representation with Information Entities

[19] nndl：神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

[20] MT-DNN：Multi-Task Deep Neural Net for NLU

[21] ERNIE 2.0: A CONTINUAL PRE-TRAINING FRAMEWORK FOR LANGUAGE UNDERSTANDING

[22]陳凱：

https://www.zhihu.com/question/337827682/answer/768908184

[23] SpanBert：對 Bert 預(yù)訓(xùn)練的一次深度探索

[24] RoBERTa: A Robustly Optimized BERT Pretraining Approach

[25] ab他們創(chuàng)造了橫掃NLP的XLNet：專訪CMU博士楊植麟

[26] XLnet: Generalized Autoregressive Pretraining for Language Understanding

[27] Neural autoregressive distribution estimation

[28] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

以上就是關(guān)于pos機器模型,15個預(yù)訓(xùn)練模型對比分析與剖析的知識，后面我們會繼續(xù)為大家整理關(guān)于pos機器模型的知識，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請帶上網(wǎng)址：http://m.mxllmx.com/news/31629.html

上一篇：pos機主板參數(shù),華勤技術(shù)沖刺上交所主板上市下一篇：中國pos機代理,如何規(guī)避騙人的POS公司

方城县| 白银市| 益阳市| 乐都县| 阳信县| 涞源县| 平顶山市| 辉南县| 长寿区| 醴陵市| 额尔古纳市| 利辛县| 荥经县| 邮箱| 芮城县| 邯郸市| 金山区| 石家庄市| 葫芦岛市| 容城县| 武鸣县| 开封市| 天峻县| 张家界市| 靖远县| 灵宝市| 股票| 宁远县| 藁城市| 萨迦县| 连城县| 潼关县| 安福县| 电白县| 元氏县| 岱山县| 海丰县| 合川市| 西峡县| 峨山| 新竹县|