GPT-2:OpenAI的NLP商業(yè)化野望

自然語言處理(NLP)技術(shù)正在生活的方方面面改變著我們的生活。

客廳的智能音箱在跟你每天的對(duì)話中飛速進(jìn)步,甚至開始跟你“插科打諢”來適應(yīng)你的愛好習(xí)慣。

電商客服總是能在第一時(shí)間回復(fù),可能處理完你的問題,你也并未發(fā)覺TA可能只是一個(gè)智能客服?,F(xiàn)實(shí)版的“圖靈測(cè)試”每天都在發(fā)生。

經(jīng)常查閱外文資料的你也許早已習(xí)慣網(wǎng)頁或幾家搜索引擎的一鍵翻譯,譯文的質(zhì)量好到讓你覺得學(xué)外語的時(shí)間純屬浪費(fèi)。

閑來無聊當(dāng)你刷信息流或者短視頻,總是事后發(fā)現(xiàn)沉迷其中的時(shí)間越來越多,其實(shí)背后正是自然語言算法平臺(tái)在根據(jù)你的瀏覽習(xí)慣、注意力時(shí)長(zhǎng)來進(jìn)行的優(yōu)化推薦。

由果溯因,我們希望簡(jiǎn)單回顧近幾年NLP的躍遷升級(jí),沿著這條技術(shù)洪流一直溯源?;氐剿闯渑?、水系林立的技術(shù)源頭,來理解NLP演進(jìn)的脈絡(luò)。

NLP兩強(qiáng)爭(zhēng)霸: OpenAI與GPT-2 的“倔強(qiáng)”進(jìn)擊

關(guān)注NLP的人們一定知道,2018年是NLP領(lǐng)域發(fā)展的大年。

2018年6月,OpenAI發(fā)表了題為《Improving Language Understanding by Generative Pre-Training》的論文,提出基于“預(yù)訓(xùn)練語言模型”的GPT,它首先利用了Transformer網(wǎng)絡(luò)代替了LSTM作為語言模型,并在12個(gè)NLP任務(wù)中的9個(gè)任務(wù)獲得了SOTA的表現(xiàn)。但種種原因GPT并未獲得更大關(guān)注。

GPT的基本處理方式是在大規(guī)模語料上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)(fine-tune)的方式,不依賴針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧,可以一次性在多個(gè)任務(wù)中取得很好的表現(xiàn)。

直到10月,谷歌的BERT(Bidirectional Encoder Representation from Transformers)問世,一經(jīng)發(fā)布便得到各界廣泛關(guān)注。BERT模型在11項(xiàng)NLP任務(wù)中奪得SOTA的表現(xiàn),更是令谷歌技術(shù)人員宣告“BERT開啟了NLP新時(shí)代”的宣言。而BERT其實(shí)采用了和GPT完全相同的兩階段模型,首先是無監(jiān)督的語言模型預(yù)訓(xùn)練;其次是使用Fine-Tuning模式解決下游任務(wù)。其不同之處在于BERT在預(yù)訓(xùn)練階段采用了類似ELMO的雙向語言模型,且使用了更大數(shù)據(jù)規(guī)模用于預(yù)訓(xùn)練。

BERT在改造NLP下游任務(wù)(包括序列標(biāo)注,比如中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語義角色標(biāo)注等;第二類是分類任務(wù),比如文本分類、情感計(jì)算等;句子關(guān)系判斷,比如Entailment,QA,語義改寫,自然語言推理等;生成式任務(wù),比如機(jī)器翻譯、文本摘要、寫詩造句、看圖說話等)上面,強(qiáng)大的普適性和亮眼的任務(wù)表現(xiàn),成為它爆紅NLP的底氣。

僅僅四個(gè)月后,OpenAI發(fā)布GPT-2。這一大規(guī)模無監(jiān)督NLP模型,可以生成連貫的文本段落,刷新了7大數(shù)據(jù)集SOTA表現(xiàn),并且能在未經(jīng)預(yù)訓(xùn)練的情況下,完成閱讀理解、問答、機(jī)器翻譯等多項(xiàng)不同的語言建模任務(wù)。

首先,CPT-2、BERT與GPT一樣,延續(xù)Transformer的Self-Attention(自注意)作為底層結(jié)構(gòu)。OpenAI研究人員對(duì)無監(jiān)督數(shù)據(jù)訓(xùn)練的堅(jiān)持也許來自于這樣一個(gè)思路:監(jiān)督學(xué)習(xí)會(huì)造成語言模型僅能處理特定任務(wù)表現(xiàn)很好,而在泛化能力表現(xiàn)很差;而單純依靠訓(xùn)練樣本的增加,很難有效實(shí)現(xiàn)任務(wù)擴(kuò)展。因此,他們選擇在更通用的數(shù)據(jù)集基礎(chǔ)上使用自注意力模塊遷移學(xué)習(xí),構(gòu)建在 zero-shot 情況下能夠執(zhí)行多項(xiàng)不同NLP任務(wù)的模型。

與BERT的不同在于,CPT-2模型結(jié)構(gòu)仍然延續(xù)了GPT1.0的“單向語言模型”。GPT-2似乎只有一個(gè)目標(biāo):給定一個(gè)文本中前面的所有單詞,預(yù)測(cè)下一個(gè)單詞。這一點(diǎn)倔強(qiáng)堅(jiān)持,可以看出OpenAI的解決思路。它選擇把Transformer模型參數(shù)擴(kuò)容到48層,包含15億參數(shù)的Transformer模型,找到一個(gè)800 萬網(wǎng)頁(WebText)數(shù)據(jù)集作為無監(jiān)督訓(xùn)練數(shù)據(jù)。簡(jiǎn)單說,GPT-2 就是對(duì) GPT 模型的直接擴(kuò)展,在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,參數(shù)量也多出了 10 倍。這讓GPT-2采用更加直接“暴力”的方式,單靠提升模型參數(shù)容量和增加訓(xùn)練數(shù)據(jù)的數(shù)量來超過BERT。

GPT-2作為一個(gè)文本生成器,只要在開始輸入只言片語,這個(gè)程序會(huì)根據(jù)自己的判斷,決定接下來應(yīng)該如何寫作。簡(jiǎn)言之,GPT-2作為通用語言模型,可以用于創(chuàng)建AI 寫作助手、更強(qiáng)大的對(duì)話機(jī)器人、無監(jiān)督語言翻譯以及更好的語音識(shí)別系統(tǒng)。OpenAI 設(shè)想,人們可能出于惡意目的利用GPT-2來生成誤導(dǎo)性新聞、網(wǎng)上假扮他人欺詐、在社交媒體自動(dòng)生產(chǎn)惡意或偽造內(nèi)容、自動(dòng)生產(chǎn)垃圾或釣魚郵件等內(nèi)容。所以,OpenAI在發(fā)布GPT2的同時(shí)就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險(xiǎn)”,選擇不對(duì)訓(xùn)練模型做完整開源,這一舉動(dòng)引來機(jī)器學(xué)習(xí)&自然語言處理界研究人員的激烈討論。

無論是被外界嘲諷為對(duì)自家產(chǎn)品的“過分自負(fù)”,還是OpenAI出于PR目的的“故意炒作”,GPT-2 “刻意制造假新聞”的實(shí)力確實(shí)驚艷到了業(yè)內(nèi)眾人。各位吃瓜群眾一邊實(shí)力吐槽,一邊又迫不及待想探究GPT-2的強(qiáng)大生成能力。

經(jīng)過將近一年時(shí)間, GPT-2在謹(jǐn)慎開源和開發(fā)者的“嘗鮮”參與中,進(jìn)行著眼花繚亂的更新演進(jìn)。

GPT-2階段開源:帶給開發(fā)者的土味狂歡

伴隨爭(zhēng)議和開發(fā)者高漲的呼聲,OpenAI仍然出于謹(jǐn)慎考慮,選擇了分階段開源。8月以后,它分階段發(fā)布了“小型的”1.24 億參數(shù)模型(有 500MB 在磁盤上),“中型的”3.55 億參數(shù)模型(有 1.5GB 在磁盤上 ),以及 7.74 億參數(shù)模型(有 3GB 在磁盤上 )。直到11月6日,它正式放出GPT-2最后一個(gè)部分的包含15億參數(shù)的最大版本的完整代碼。

一直到完整版本公布,OpenAI并未發(fā)現(xiàn)任何明確的代碼、文檔或者其他濫用實(shí)證,也就是說一直擔(dān)心的“GPT-2遭到濫用”的結(jié)果并沒有發(fā)生,但OpenAI仍然認(rèn)為,全面版本發(fā)布同時(shí)也會(huì)讓惡意人士有機(jī)會(huì)進(jìn)一步提高檢測(cè)逃避能力。

所以,伴隨著GPT-2不同版本的陸續(xù)公布,OpenAI自身與多家復(fù)現(xiàn)GPT-2模型的團(tuán)隊(duì)進(jìn)行交流,驗(yàn)證GPT-2的使用效果,同時(shí)也在避免濫用語言模型的風(fēng)險(xiǎn),完善檢測(cè)文本生成的檢測(cè)器。同時(shí),OpenAI也還在與多家研究機(jī)構(gòu)合作,比如對(duì)人類對(duì)語言模型產(chǎn)生的數(shù)字信息的敏感性的研究,對(duì)惡意利用GPT-2的可能性的研究,對(duì)GPT-2生成文本的統(tǒng)計(jì)可檢測(cè)性的研究。

無論OpenAI出于怎樣的謹(jǐn)慎,隨著不同容量參數(shù)模型的發(fā)布,外界開發(fā)人員已經(jīng)迫不及待進(jìn)行各種方向的探索了。

2019年4月,Buzzfeed 數(shù)據(jù)科學(xué)家 Max Woolf使用Python封裝了具有 1.17 億超參數(shù)的“較小”版本的 OpenAI GPT-2 文本生成模型進(jìn)行微調(diào)和生成腳本,開源了一個(gè)“GPT-2 精簡(jiǎn)版”,從而更好地幫助人們生成一段文本,里面可以給出很多出人意料的內(nèi)容。

在OpenAI逐步開源的過程里,來自布朗大學(xué)的兩位研究生就率先自己動(dòng)手復(fù)制出一個(gè) 15 億參數(shù)量的 GPT-2,并將其命名為 OpenGPT-2。過程中,他們使用自己的代碼從零開始訓(xùn)練 GPT-2 模型大約只花費(fèi)了 5 萬美元。所用的數(shù)據(jù)集也盡可能參照OpenAI論文里公開的方法。有很多熱心網(wǎng)友的測(cè)試后表示,OpenGPT-2 的輸出文本效果優(yōu)于 OpenAI 的 GPT-2 7.74 億參數(shù)版本。當(dāng)然,也有人認(rèn)為,并沒有比GPT-2模型生成的文本效果更好。

同時(shí)在國內(nèi),一個(gè)位于南京名叫“Zeyao Du”的開發(fā)者,在GitHub上開源了的GPT-2 Chinese,可以用來寫詩、新聞、小說和劇本,或是訓(xùn)練通用語言模型。這一能夠?qū)崿F(xiàn)逆天效果GPT-2模型,用到了15億個(gè)參數(shù)。目前他開源了預(yù)訓(xùn)練結(jié)果與 Colab Demo 演示,只需要單擊三次,人們就可以生成定制的中文故事。

GPT-2模型還有更多嘗試。一個(gè)新加坡高中生Rishabh Anand開源了一個(gè)輕量級(jí)GPT-2“客戶端”——gpt2-client,它是一個(gè)GPT-2 原始倉庫的包裝器,只需5行代碼就可以實(shí)現(xiàn)文本生成。

來自中國的幾個(gè)研究者正在用GPT模型生成高質(zhì)量的中國古典詩歌。比如論文里提到的一首《七律·一路平安》:“一聲天際雁橫秋,忽夢(mèng)青城舊友游。路入青林無去馬,手?jǐn)y黃牒有歸舟。平生志業(yè)商山老,何日公卿漢署留。安得相從話疇昔,一樽同醉萬山頭”。一場(chǎng)平平淡淡的送別,寫得就飽含滄桑、充滿離愁。不難讓人懷疑:這個(gè)語言模型是否真的有了感情?

GPT-2模型還可以用在音樂創(chuàng)作上。OpenAI推出一種用于生成音樂作品的深層神經(jīng)網(wǎng)絡(luò)——MuseNet,正是GPT-2語言模型Sparse Transformer相同的通用無監(jiān)督技術(shù),允許MuseNet根據(jù)給定的音符組預(yù)測(cè)下一個(gè)音符。該模型能夠用10種不同的樂器制作4分鐘的音樂作品,并且能夠從巴赫,莫扎特,披頭士樂隊(duì)等作曲家那里了解不同的音樂風(fēng)格。它還可以令人信服地融合不同的音樂風(fēng)格,以創(chuàng)造一個(gè)全新的音樂作品。

最讓筆者感興趣的是一位開發(fā)者通過GPT-2做出的一款A(yù)I文字冒險(xiǎn)游戲——“AI地牢”。通過多輪文本對(duì)話, AI就可以幫你展開一段意想不到的“騎士屠龍”征途或者“都市偵探”之旅。在未來的游戲產(chǎn)業(yè)中,AI創(chuàng)造的故事腳本,也許可能更具想象力?

GPT-2發(fā)布的一年里,以上開源帶來的應(yīng)用足以稱之為眼花繚亂。喧鬧與繁榮背后,除了在在開源風(fēng)險(xiǎn)上的小心謹(jǐn)慎,OpenAI還面臨著哪些難題?

NLP的土豪賽:OpenAI聯(lián)姻微軟后的 GPT-2商業(yè)化

其實(shí),我們從BERT和GPT-2的演進(jìn)趨勢(shì),可以看出人類利用更大容量的模型、無監(jiān)督的無限訓(xùn)練,可以去創(chuàng)造更多更好的合乎人類語言知識(shí)的內(nèi)容。但這也同樣意味著要依靠超級(jí)昂貴的GPU計(jì)算時(shí)間、超大規(guī)模GPU機(jī)器學(xué)習(xí)集群、超長(zhǎng)的模型訓(xùn)練過程。這意味著這種“燒錢”模式,使得NLP的玩家最終會(huì)更加向頭部公司聚集,成為少數(shù)土豪玩家的賽場(chǎng)。

可以預(yù)見,如果今年OpenAI再推出GPT-3.0,大概率還是會(huì)選擇單向語言模型,但會(huì)采取更大規(guī)模的訓(xùn)練數(shù)據(jù)和擴(kuò)充模型,來與BERT硬剛。NLP應(yīng)用領(lǐng)域的成績(jī)也會(huì)再次刷新。

但從另一個(gè)側(cè)面看到,如此“燒錢”的語言訓(xùn)練模型的研發(fā),尚無清晰的商業(yè)化應(yīng)用前景。OpenAI也不得不面臨著“遵循技術(shù)情懷的初衷”還是“為五斗米折腰”的商業(yè)化的艱難選擇。

答案應(yīng)該已然明了。就在2019年7月,OpenAI接受了微軟的10億美元投資。根據(jù)官方說法,OpenAI將與微軟合作,共同為微軟Azure云平臺(tái)開發(fā)新的人工智能技術(shù),并將與微軟達(dá)成一項(xiàng)排他性協(xié)議,進(jìn)一步擴(kuò)展大規(guī)模人工智能能力,“兌現(xiàn)通用人工智能(AGI)的承諾”。其實(shí)質(zhì)正是OpenAI在人工智能研究上的“燒錢”與其商業(yè)化的尷尬,使得它更需要這樣一筆來自微軟的“贊助”。就以擁有15億參數(shù)的GPT-2模型為例,它使用256塊TPU v3訓(xùn)練,每小時(shí)都要花費(fèi)2048美元??梢灶A(yù)見,如果我們還想期待GPT-3.0的發(fā)布,其費(fèi)用將主要就花在云端的計(jì)算資源上面。

微軟將成為OpenAI獨(dú)家云計(jì)算供應(yīng)商。OpenAI的人工智能技術(shù)也要通過Azure云輸出。未來,OpenAI將把部分技術(shù)授權(quán)給微軟,然后由微軟把這些技術(shù)商業(yè)化,并將其出售給合作伙伴。

這筆巨額費(fèi)用的支持,讓OpenAI有了更充足的底氣。如上面所總結(jié)的,GPT-2在8月份后繼續(xù)開始分步驟發(fā)布不同量級(jí)的參數(shù)模型,并在11月全部開源。顯然GPT-2未來在商業(yè)化方向上,可以更多的借助微軟Azure的加持。比如可以未來更好的與Office365協(xié)作,參與到辦公協(xié)助的自動(dòng)化文本寫作當(dāng)中,參與語法錯(cuò)誤修復(fù),也可以建立更自然真實(shí)的問答系統(tǒng)。

曾經(jīng)年少愛追夢(mèng),一心只想往前飛。AGI的理想也需要在商業(yè)實(shí)踐中照進(jìn)現(xiàn)實(shí)。可以預(yù)見,2020年,谷歌面對(duì)微軟&OpenAI的組合,將給NLP商業(yè)化帶來更多波瀾。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-02-05
GPT-2:OpenAI的NLP商業(yè)化野望
這一大規(guī)模無監(jiān)督NLP模型,可以生成連貫的文本段落,刷新了7大數(shù)據(jù)集SOTA表現(xiàn),并且能在未經(jīng)預(yù)訓(xùn)練的情況下,完成閱讀理解、問答、機(jī)器翻譯等多項(xiàng)不同的語言建模任務(wù)。

長(zhǎng)按掃碼 閱讀全文