123,123

原標題：低資源神經(jīng)機器翻譯MetaNMT ：來自MAML與NLP的溫柔救贖

過去十年，隨著Attention模型、LSTM、記憶Memory等等方法的出現(xiàn)，尤其是在神經(jīng)網(wǎng)絡(luò)的加持下，機器翻譯的水平取得了長足的進步。

在英法、中英這樣的大語種（Rich Language）翻譯任務(wù)上，機器的表現(xiàn)幾乎可以媲美人類的水平，甚至已經(jīng)開始登堂入室，承接了不少國際大會的翻譯業(yè)務(wù)，讓人類翻譯感受到了深深的失業(yè)焦慮。

然而，神經(jīng)機器翻譯（NMT）的成功往往依賴于大量高質(zhì)量的雙語語料作為訓練數(shù)據(jù)。如果是蒙古語、印度語這些小語種，無法提供足夠多的雙語數(shù)據(jù)，更極端的現(xiàn)實情況是，有些語言幾乎沒有任何雙語預料，這種情況下NMT就無能為力了。

標注數(shù)據(jù)資源的貧乏問題，一直沒有什么好的解決辦法。因此，來自香港大學、紐約大學的研究人員Jiatao Gu、Yong Wang等人所提出的新神經(jīng)機器翻譯方法MetaNMT，論文一經(jīng)發(fā)表，就憑借在低資源神經(jīng)機器翻譯（NMT）上的優(yōu)異性能表現(xiàn)驚艷了學界，成為2018年最具影響力的NLP創(chuàng)新之一。

論文不僅被NLP領(lǐng)域領(lǐng)先的會議EMNLP收錄，還拿下了Facebook的低資源神經(jīng)機器翻譯獎。今天，我們就來看看MetaNMT方法究竟有何過人之處？

什么是MetaNMT算法？

簡單來說，MetaNMT算法就是將元學習算法（MAML），用于低資源神經(jīng)機器翻譯（NMT）中，將翻譯問題建構(gòu)為元學習問題，從而解決低資源語言語料匱乏的難題。

研究人員先使用許多高資源語言（比如英語和法語），訓練出了一個表現(xiàn)極佳的初始參數(shù)，然后使構(gòu)建一個所有語言的詞匯表。再以初始參數(shù)/模型為基礎(chǔ)，訓練低資源語言的翻譯（比如英語VS希伯來語，法語VS希伯來語）。在此基礎(chǔ)上進行進一步優(yōu)化初始模型，最終得到的模型就可以很好地提升小語種翻譯模型的性能。

具體到實驗中，研究人員使用十八種歐洲語言所訓練的元學習策略，被應用在以五種小語種語言（Ro，Lv，F(xiàn)i，Tr和Ko）為目標的任務(wù)中。結(jié)果證明，通過16000個翻譯單詞（約600個并行句子），羅馬尼亞語-英語WMT'16上實現(xiàn)高達22.04 BLEU。

數(shù)據(jù)顯示，MetaNMT訓練出的系統(tǒng)，表現(xiàn)要明顯優(yōu)于基于多語言遷移學習。這意味著只需要一小部分的訓練樣例，我們就能訓練出效果更好的NMT系統(tǒng)，很多語料庫非常小的語言，機器翻譯時也不會再一籌莫展或者胡言亂語了。

NLP的神助攻：元學習強在何處？

MetaNMT之所以取得如此良好的效果，核心就在于引入的MAML（Model Agnostic Meta Learning），即與模型無關(guān)的元學習方法。

簡單來說，元學習就是要讓智能體利用以往的知識經(jīng)驗“學會如何學習”（Learning to learn），然后更高效地完成新任務(wù)。

傳統(tǒng)NLP任務(wù)中常用的遷移學習（transfer leaning）或多任務(wù)學習（Multi-Task Learning），輸入端訓練得到的編碼器（Encoder）會直接轉(zhuǎn)化為對應的向量表示序列，直指目標任務(wù)。而MetaNMT則是通過高資源語言系統(tǒng)的訓練得到一個獨立于原任務(wù)的通用策略方法，再讓極低資源的語言系統(tǒng)根據(jù)這種學習方法，并反復地模擬訓練。

過去，元學習一直被用來進行小樣本學習、通用機器人等訓練中，MetaNMT的提出，也是MAML第一次在NLP領(lǐng)域成功應用。那么，未來隨著元學習的加入，NLP領(lǐng)域會產(chǎn)生哪些可能的變化呢？

首先，降低NLP任務(wù)的研究門檻。

深度增強學習需要的訓練數(shù)據(jù)量規(guī)模越來越大，游戲等動態(tài)任務(wù)環(huán)境所涉及的獎勵機制也日趨復雜。在StyleGAN、BERT等“巨無霸”模型的爭奪下，GPU/TPU計算時長變得極其昂貴，NLP儼然快要成為土豪大公司才有資格玩的游戲了。

與之相比，通過少量樣本資源就能學會新概念的元學習方法，可以只使用少量的梯度迭代步來解決新的學習任務(wù)，就顯得平易近人很多。

其次，提升NLP任務(wù)的學習效率。

傳統(tǒng)的數(shù)據(jù)集更新周期長，往往需要根據(jù)新任務(wù)進行改造和再編輯。而元學習就改變了這一現(xiàn)狀。先讓系統(tǒng)接觸大量的任務(wù)進行訓練，再從中學會完成新任務(wù)的方法，可以快速（只需少量步驟）高效（只使用幾個例子）地應用于廣泛的NLP任務(wù)中。

尤其是在特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等任務(wù)中，在用戶的使用過程中就可以收集豐富的信息，讓系統(tǒng)在動態(tài)學習中構(gòu)建越來越強大的性能。

除此之外，元學習還能幫助NLP實現(xiàn)個性化、智能化進階。

特定用戶可以根據(jù)已有的知識經(jīng)驗和認知結(jié)構(gòu)與元學習系統(tǒng)之間建立聯(lián)系，通過不同個體的動態(tài)交互與信息反饋等，元學習系統(tǒng)可以不斷豐富和修正自身的知識網(wǎng)絡(luò)和輸出效果，最終使得構(gòu)建個性化產(chǎn)品變得更加方便快捷，高智能交互也因此成為可能。

總而言之，F(xiàn)ew-Shot（低資源）、Fast Adaptation（高適應性）、Reusability（重用性）等特點，使得元學習的價值前所未有地清晰起來，某種程度上也代表了NLP接下來的研究方向。

道阻且長：NLP的進化之路

既然元學習之于NLP領(lǐng)域意義重大，為什么直到現(xiàn)在才出現(xiàn)了一個成功案例呢？這恐怕還要從低資源型語言的研究現(xiàn)狀說起。

前面提到，驗證元學習系統(tǒng)性能最好的方式，就是將其放到低資源任務(wù)中，看看是否和大規(guī)模任務(wù)一樣出色。但這么做有個前提，就是能夠建立起對應的數(shù)據(jù)集。然而這對稀缺資源的小語種來說，也不是件容易的事。

以MetaNMT為例，就為各個語言建立了詞匯表。其中的低資源型目標任務(wù)，土耳其語、拉脫維亞語、羅馬尼亞語、芬蘭語等等，就是通過16000個翻譯單詞（約600個并行句子）完成的，這已經(jīng)是目前神經(jīng)機器翻譯的極限了。

然而全世界6000多種語言中，80%人口講的都是主要的83種語言，剩下的有30%都處在語料資源極度匱乏的狀態(tài)，而且絕大多數(shù)沒有任何文字記載，有的甚至使用者不足十人。缺乏相關(guān)的數(shù)據(jù)集，往往只有少量文本可供使用，成為阻礙小語種機器翻譯最大的攔路虎。即使有元學習這樣的神兵利器，也沒有用武之地。

而近年來，情況正在發(fā)生一些積極的變化。

一方面越來越多的人開始重視瀕危語言保護問題，出現(xiàn)了公益化的語料收集項目和相關(guān)數(shù)據(jù)庫，大大降低了小語種的研究難度。比如南非數(shù)字語言資源中心（SADiLaR），已經(jīng)能夠提供許多南非的語言資源；

另外，NLP研究的發(fā)展，也激發(fā)了更多的人創(chuàng)建并開放出極低資源語料數(shù)據(jù)集，為跨語言模型開發(fā)、低資源語言訓練等提供了可能性。

比如FAIR 和紐約大學的研究者合作開發(fā)的一個自然語言推斷語料庫 XNLI，將 MultiNLI 的測試集和開發(fā)集擴展到 15 種語言，里面就包含了斯瓦西里語和烏爾都語等低資源語言。

目前看來，MetaNMT之所以備受褒獎，并不是因為它一出手就取得了什么炸裂至極的效果。它的價值，更多的是作為一種靈感和理念，去傳達技術(shù)的本質(zhì)，引領(lǐng)更具價值的理想化的創(chuàng)造。

NLP的進步，不應來自于堆砌資源和規(guī)模，不應只停留在本就飽和的領(lǐng)域，而是構(gòu)建出真正無障礙的語言系統(tǒng)。讓說著匱乏型語言的人們，也能夠閱讀非母語的新聞，或者在遇到問題時求助于可靠的專家系統(tǒng)。

如果技術(shù)不去往那些真正的荒蕪之地，又有什么意義？

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

低資源神經(jīng)機器翻譯MetaNMT ：來自MAML與NLP的溫柔救贖

下一篇