谷歌剛剛在博客中宣布,谷歌神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行了重大更新,實現(xiàn)了用單一模型對多語種通用表征。系統(tǒng)還實現(xiàn)“零數(shù)據(jù)翻譯”,也即能夠在從來沒有見過的語言之間進(jìn)行翻譯。這意味著傳說中的“巴別塔”有望成真。而國內(nèi)的那些百度、科大訊飛們又不小心被甩出了10萬公里遠(yuǎn)。至少從公開的信息中是這樣子的。
過去10年中,谷歌翻譯已從僅支持幾種語言發(fā)展到了支持103種,每天翻譯超過了1400億字。為了實現(xiàn)這一點(diǎn),我們需要構(gòu)建和維護(hù)許多不同的系統(tǒng),以便在任何兩種語言之間進(jìn)行轉(zhuǎn)換,由此產(chǎn)生了巨大的計算成本。
神經(jīng)網(wǎng)絡(luò)改革了許多領(lǐng)域,我們確信可以進(jìn)一步提高翻譯質(zhì)量,但這樣做意味著重新思考谷歌翻譯背后的技術(shù)。
今年 9 月,谷歌翻譯改為啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),這是一個端到端的學(xué)習(xí)框架,可以從數(shù)百萬個示例中學(xué)習(xí),并在翻譯質(zhì)量方面有顯著提升。
不過,雖然啟用GNMT的幾種語言翻譯質(zhì)量得到了提升,但將其擴(kuò)展到所有 103 種谷歌翻譯支持的語種,卻是一個重大的挑戰(zhàn)。
實現(xiàn)零數(shù)據(jù)翻譯(Zero-Shot Translation)
在論文《谷歌多語言神經(jīng)機(jī)器翻譯系統(tǒng):實現(xiàn)零數(shù)據(jù)翻譯》(Google s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我們通過擴(kuò)展以前的 GNMT系統(tǒng)解決這一挑戰(zhàn),使單個系統(tǒng)能夠在多種語言之間進(jìn)行翻譯。
我們提出的架構(gòu)不需要改變基本的 GNMT 系統(tǒng),而是在輸入句子的開頭使用附加的“token”,指定系統(tǒng)將要翻譯的目標(biāo)語言。 除了提高翻譯質(zhì)量,我們的方法還實現(xiàn)了“Zero-Shot Translation”,也即在沒有先驗數(shù)據(jù)的情況下,讓系統(tǒng)對從未見過的語言進(jìn)行翻譯。
下圖展示了最新 GNMT 的工作原理。假設(shè)我們使用日語和英語以及韓語和英語之間相互翻譯為例,訓(xùn)練一個多語言系統(tǒng),如動畫中藍(lán)色實線所示。
這個新的多語言系統(tǒng)與單個 GNMT 系統(tǒng)大小一樣,參數(shù)也一樣,能夠在日英和韓英這兩組語言對中進(jìn)行雙語翻譯。參數(shù)共享使系統(tǒng)能夠?qū)ⅰ胺g知識”(translation knowledge)從一個語言對遷移到其他語言對。這種遷移學(xué)習(xí)和在多種語言之間進(jìn)行翻譯的需要,迫使系統(tǒng)更好地利用其建模能力。
由此,我們想到:能夠讓系統(tǒng)在從未見過的語言對之間進(jìn)行翻譯嗎?例如韓語和日語之間的翻譯,系統(tǒng)并沒有接受過日韓之間翻譯的訓(xùn)練。
但答案是肯定的——雖然從來沒有教過它但,新的系統(tǒng)確實能夠生成日韓兩種語言之間合理的翻譯。我們將其稱為“零數(shù)據(jù)”(zero-shot)翻譯,如動畫中的黃色虛線所示。據(jù)我們所知,這還是首次將這種類型的遷移學(xué)習(xí)應(yīng)用機(jī)器翻譯中。
零數(shù)據(jù)翻譯的成功帶來了另一個重要的問題:系統(tǒng)是否學(xué)會了一種通用的表征,其中不同語言中具有相同意義的句子都以類似的方式表示,也即所謂的“國際通用語”(interlingua)?
使用內(nèi)部網(wǎng)絡(luò)數(shù)據(jù)的三維表征,我們能夠看見系統(tǒng)在翻譯日語、韓語和英語這幾種語言時,在各種可能的語言對之間進(jìn)行轉(zhuǎn)換(比如日語到韓語、韓語到英語、英語到日語等等)時,內(nèi)部發(fā)生的情況。
上圖中的(a)部分顯示了這些翻譯的總體幾何構(gòu)成。圖中不同顏色的點(diǎn)代表不同的意思;意思相同的一句話,從英語翻譯為韓語,與從日語翻譯為英語的顏色相同。我們可以從上圖中看到不同顏色的點(diǎn)各自形成的集合(group)。
(b)部分是這些點(diǎn)集的其中一個放大后的結(jié)果,(c)部分則由原語言的顏色所示。在單個點(diǎn)集中,我們能夠看到日韓英三種語言中,擁有相同含義的句子聚在一起。
這意味著網(wǎng)絡(luò)必定是對句子的語義進(jìn)行編碼,而不是簡單地記住短語到短語之間的翻譯。由此,我們認(rèn)為這代表了網(wǎng)絡(luò)中存在了一種國際通用語(interlingua)。
我們在論文中還寫下了更多的結(jié)果和分析,希望這些的發(fā)現(xiàn)不僅能夠幫助從事機(jī)器學(xué)習(xí)或機(jī)器翻譯的研究人員,還能對于語言學(xué)家和對使用單一系統(tǒng)處理多語言感興趣的人有用。
最后,上述多語言谷歌神經(jīng)機(jī)器翻譯系統(tǒng)(Multilingual Google Neural Machine Translation)從今天開始將陸續(xù)為所有谷歌翻譯用戶提供服務(wù)。當(dāng)前的多語言系統(tǒng)能夠在最近推出的16個語言對中的 10 對中進(jìn)行轉(zhuǎn)化,提高了翻譯質(zhì)量,并且簡化了生產(chǎn)架構(gòu)。
商業(yè)部署后,實現(xiàn)技術(shù)上的突破
正如前文所說,今年 9 月,谷歌宣布對部分語種啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),并在幾種率先使用的測試語種(包括漢語)翻譯質(zhì)量方面得到了顯著提升。
下面的動圖展示了 GNMT 進(jìn)行漢英翻譯的過程。首先,網(wǎng)絡(luò)將漢字(輸入)編碼成一串向量,每個向量代表了當(dāng)前讀到它那里的意思(即 e3 代表“知識就是”,e5 代表“知識就是力量”)。整句話讀完之后開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。
要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權(quán)分布中,與生成英語單詞關(guān)系最為密切的那個(上圖中解碼器 d 上面多條透明藍(lán)線中顏色最深的那條),解碼器關(guān)注越多,藍(lán)色越深。
使用人類對比評分指標(biāo),GNMT 系統(tǒng)生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT 將翻譯錯誤降低了 55%-58%。
不過, 當(dāng)時也有很多研究人員認(rèn)為,當(dāng)時谷歌翻譯取得的“里程碑”,與其說是技術(shù)突破,不如說是工程上的勝利——大規(guī)模部署本身確實需要軟硬件方面超強(qiáng)的實力,尤其是想谷歌翻譯這樣支持 1 萬多種語言的商業(yè)應(yīng)用,對速度和質(zhì)量的要求都非常的高。但是,神經(jīng)機(jī)器翻譯的技術(shù)早已存在,借鑒了語言和圖像處理方面的靈感,是多種技術(shù)的整合。
現(xiàn)在,只用了大約 2 個月的時間(論文首次上傳到 arXiv 是 11 月 14 日),谷歌翻譯和谷歌大腦團(tuán)隊就實現(xiàn)了技術(shù)上的突破——讓系統(tǒng)在從未見過的語言對之間進(jìn)行翻譯,也即所謂的“zero-shot translation”。
不僅如此,谷歌研究人員還在論文最后做了分析,新的模型代表了實現(xiàn)一種“國際通用語”模型的可能。有評論稱, 這可以說是實現(xiàn)“巴別塔”的第一步。
谷歌神經(jīng)機(jī)器翻譯系統(tǒng)架構(gòu)
就在幾天前,國外研究員 Smerity 在他的博客上發(fā)布了一篇分析谷歌神經(jīng)機(jī)器翻譯(GNMT)架構(gòu)的文章,在 HackerNews、Reddit 等網(wǎng)站都引發(fā)了很多討論。
Smerity 在博文中指出,GNMT 的架構(gòu)并不標(biāo)準(zhǔn),而且在很多情況下偏離主流學(xué)術(shù)論文中提出的架構(gòu)。但是,根據(jù)谷歌特定的需求,谷歌修改了系統(tǒng),重點(diǎn)保證系統(tǒng)的實用性而并非追求頂尖結(jié)果。
【論文】谷歌的多語言神經(jīng)機(jī)器翻譯系統(tǒng):實現(xiàn) zero-shot 翻譯
摘要如下:
我們提出了一種使用單一神經(jīng)機(jī)器翻譯(NMT)模型,在多語種之間進(jìn)行翻譯簡潔而優(yōu)雅的解決方案。不需要修改谷歌現(xiàn)有的基礎(chǔ)系統(tǒng)模型架構(gòu),而是在輸入句子的前面加入人工 標(biāo)記(token)明確其要翻譯成的目標(biāo)語言。
模型的其他部分(包括編碼器、解碼器和注意模型)保持不變,而且可以在所有語言上共享。使用一個共享的 wordpiece vocabulary,這種方法能夠使用單一模型實現(xiàn)多語種神經(jīng)機(jī)器翻譯,而不需要增加參數(shù),相比此前提出的方法更為簡單。
實驗表明,這種新的方法大部分時候能提升所有相關(guān)語言對的翻譯質(zhì)量,同時保持總的模型參數(shù)恒定。
在 WMT' 14 基準(zhǔn)上,單一多語言模型在英法雙語翻譯上實現(xiàn)了與當(dāng)前最好技術(shù)相同的結(jié)果,并在英德雙語翻譯上超越當(dāng)前最佳的結(jié)果。
同時,單一多語言模型分別在 WMT'14 和 WMT'15 基準(zhǔn)上,超越了當(dāng)前最佳的法英和德英翻譯結(jié)果。 在用于生產(chǎn)的語料庫上,多達(dá) 12 個語言對的多語言模型能夠?qū)崿F(xiàn)比許多單獨(dú)的語言對更好的表現(xiàn)。
除了提升該模型訓(xùn)練所用的語言對的翻譯質(zhì)量之外,新的模型還能在訓(xùn)練過程中將沒有見過的語言對相互聯(lián)系起來(bridging),表明用于神經(jīng)翻譯的遷移學(xué)習(xí)和零數(shù)據(jù)翻譯是可能的。
最后,我們分析了最新模型對通用語言間表征的跡象,還展示了一些混合語言時會出現(xiàn)的有趣案例。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 華為舉辦原生鴻蒙之夜暨全場景新品發(fā)布會,推出HarmonyOS NEXT和多款新品
- HarmonyOS NEXT正式發(fā)布:原生應(yīng)用超15000個,開啟更多機(jī)型公測
- Gartner發(fā)布2025年十大戰(zhàn)略技術(shù)趨勢 代理型AI與AI治理入選
- 多項數(shù)據(jù)成果重磅發(fā)布,2024全球數(shù)商大會數(shù)據(jù)空間創(chuàng)新發(fā)展論壇在滬順利舉辦!
- 被歐盟重罰170億美元后,特朗普爆料蘋果CEO庫克打電話向自己求助
- 2024全球數(shù)商大會在上海盛大開幕,共繪數(shù)字經(jīng)濟(jì)新藍(lán)圖
- 2024全球數(shù)商大會開幕:數(shù)“聚”上海,“鏈”接數(shù)字經(jīng)濟(jì)新未來
- 大疆正式起訴美國國防部,就錯誤列入CMC制裁清單提出抗議
- 揭秘Neuralink腦機(jī)接口的“主刀人” 他是馬斯克野心的幕后操盤手
- 京東發(fā)言人證實:劉強(qiáng)東章澤天夫婦遭有組織造謠,警方已介入調(diào)查
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。