火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

8月5日,ACL 2021正式頒發(fā)“最佳論文”獎項,字節(jié)跳動AI Lab的機器翻譯技術(shù)論文在3350篇論文投稿中脫穎而出,當選今年度“最佳論文”。ACL大會由國際計算語言學協(xié)會主辦,被視為自然語言處理與計算語言學領(lǐng)域最高級別的學術(shù)會議。多年來,自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領(lǐng)域都有著廣泛的應(yīng)用。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

1.機器翻譯新突破

自1949年信息論先驅(qū)Warren Weaver發(fā)表翻譯備忘錄、提出機器翻譯的可能性以來,機器翻譯已經(jīng)過了幾十年的發(fā)展迭代,如今進入到了一個可以運用“神經(jīng)網(wǎng)絡(luò)”和加入了“深度學習技術(shù)”的AI翻譯時代。不可否認的是,全球化的商業(yè)巨頭已經(jīng)走在了最前端。

AI為內(nèi)核的混合智能技術(shù)也正在成為開啟經(jīng)濟新周期的密鑰之一。

這絕不是理論上的先知先覺。洞察美國科技巨頭——如谷歌、Facebook等公司,我們會清醒發(fā)現(xiàn),它們都在進入一個密集的AI基礎(chǔ)設(shè)施投資新周期。這樣的行為,或許會在中短期對它們的財務(wù)報表形成一定擾動,但相比于未來的收益,不值一提。

字節(jié)跳動作為互聯(lián)網(wǎng)新貴,機器翻譯是其AI能力發(fā)展程度的重要體現(xiàn)之一。該公司業(yè)務(wù)覆蓋150個國家和地區(qū),員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協(xié)作的背后,字節(jié)跳動AI Lab火山翻譯團隊多年打磨的機器翻譯模型的支持必不可少。

基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術(shù)能力,火山翻譯推出了一系列形態(tài)多樣的產(chǎn)品與服務(wù),包括機器翻譯云服務(wù)、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領(lǐng)域的快速模型定制,能夠滿足不同群體和不同行業(yè)的翻譯需求。

除了在抖音、今日頭條等產(chǎn)品上的使用,火山翻譯團隊也早已將機器翻譯技術(shù)應(yīng)用于辦公場景中。以在線辦公軟件飛書為例,不僅郵件、文檔和表格可以開啟譯文或雙語對照模式,IM消息也可以做到即時翻譯,會議也同樣可以享受同聲傳譯的快感,包括目標語言字幕式翻譯。這類機器翻譯技術(shù)的應(yīng)用,使得來自于不同國家的參會者可以說著自己的母語更自如地進行交流,而不再囿于語言障礙產(chǎn)生誤解。

據(jù)火山翻譯負責人王明軒介紹,內(nèi)部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應(yīng)用,火山翻譯多語言互譯的速度和準確度都經(jīng)受住了考驗。

如今,火山翻譯已經(jīng)上線了56門語種之間的互譯,支持的語向翻譯多達3080個。據(jù)透露,今年內(nèi)火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

今年內(nèi),火山翻譯上線語種將超過150個

以火山同傳為例,在半年時間內(nèi),火山同傳就已經(jīng)在多場會議與直播中嶄露頭角,包括北京智源大會、第四屆首席技術(shù)官領(lǐng)袖峰會、日本藝術(shù)家村上隆首場中國直播等。不僅為不同場景提供定制化同傳字幕服務(wù)方案,同時采用人工保障方案實時校準,保證字幕精準性和流暢性,為高端會議的進行提供了保障。

火山翻譯的前沿技術(shù)也獲得了學術(shù)界認可,今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎(chǔ)研究團隊和火山翻譯團隊合作實現(xiàn)的。由字節(jié)跳動AI Lab提出的一種新的詞表學習方案VOLT,更是獲得了年度唯一的“最佳論文”獎項。這是ACL59年歷史上,華人科學家團隊第二次贏得最高榮譽。

王明軒透露,火山翻譯現(xiàn)在每天都要處理數(shù)億次翻譯請求,可以說每一個上線語種都經(jīng)過了實際用戶的檢驗,“因此,穩(wěn)定和高質(zhì)量的翻譯服務(wù)是我們必須提供的保障。”

持續(xù)不斷地為用戶提供高水平翻譯服務(wù)靠的不是運氣,而是火山翻譯背后強大的技術(shù)支撐和工程能力,以及字節(jié)跳動開放體系的聯(lián)動支持。

2.技術(shù)底色支撐應(yīng)用落地

火山翻譯之所以能在近年快速落地,實現(xiàn)商業(yè)價值,離不開其濃厚的技術(shù)基底。

微軟技術(shù)學院院士黃學東曾表示,一家公司構(gòu)建的翻譯系統(tǒng)效果如何,主要取決于兩點:一是數(shù)據(jù)是否夠全、夠多;二是算法是否足夠好。

海量數(shù)據(jù)是AI自我迭代不可或缺的基礎(chǔ),由于背靠字節(jié)全球化布局,火山翻譯可以獲得更好的AI訓練結(jié)果,并從AI賦能中率先獲益。

同時,得益于字節(jié)跳動多年機器學習和自然語言處理領(lǐng)域的深耕,其AI團隊擁有百余項技術(shù)發(fā)明專利,在機器翻譯技術(shù)上更是獨創(chuàng)了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調(diào)取得了44個語對的業(yè)界最佳性能。

據(jù)悉,目前研究界主流的多語言翻譯模型主要在英語相關(guān)的語對上進行訓練。這樣的系統(tǒng)通常在英語相關(guān)的語向(有監(jiān)督語向)上表現(xiàn)不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團隊近期提出了更簡潔優(yōu)雅的大規(guī)模多語言預訓練新范式mRASP2,通過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統(tǒng)一的訓練框架之下,旨在充分利用語料,學習更好的語言表示,并由此提升多語言翻譯性能。

這一多語言預訓練新范式運用在機器翻譯時,就像是一個精通兩三門語言的人類學者,在學習另一門語言時,速度就會更快。“人類在多語言學習過程中會自發(fā)去總結(jié)語言學習中比較抽象的共性,再去學習新語言的特性。因此想要提升個人語言學習能力,往往需要學習更多的語言。”火山翻譯就將這一規(guī)律植入神經(jīng)網(wǎng)絡(luò)翻譯中,創(chuàng)造出了一個統(tǒng)一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

火山翻譯多語言預訓練新范式源于人類語言學習規(guī)律

機器翻譯模型實際是基于源語言生成目標語言的條件概率模型,實驗結(jié)果表明mRASP2在有監(jiān)督、無監(jiān)督、零資源的場景下均取得翻譯效果的提升。其中有監(jiān)督場景平均提升1.98 BLEU(bilingual evaluation understudy,翻譯精確度),無監(jiān)督場景平均提升14.13 BLEU,零資源場景平均提升10.26 BLEU。

這意味著,無論是語料庫豐富的通用語言,還是訓練數(shù)據(jù)稀缺的小語種,機器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學習迭代。

隨著語種數(shù)量增加,翻譯任務(wù)增多,對機器自然語言處理任務(wù)的能力水平也提出了新的要求。

早在2019年12月,火山翻譯團隊曾經(jīng)開源過一款Transformer類模型推理加速引擎LightSeq。作為業(yè)界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其它同類軟件,更是遠遠超過了TensorFlow和PyTorch。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

Transformer模型結(jié)構(gòu)圖(以機器翻譯為例)

最近,LightSeq發(fā)布了最新版本,引入了引擎方面的重大更新——支持了Transformer全流程訓練加速,在不同的批處理大小下相比主流訓練庫最高可加速3倍多,是業(yè)界目前最快的推理和訓練引擎,可以把推理速度提升10倍。

訓練速度快,指的是模型更迭比較快;推理速度快,就是指用戶體驗到的翻譯速度更快。至此從訓練到推理部署的整個過程都已被LightSeq2.0打通。

從用戶端來看,LightSeq2.0可以應(yīng)用于機器翻譯、自動問答、智能寫作、對話回復生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗,降低企業(yè)運營服務(wù)成本。

“以翻譯任務(wù)為例,LightSeq2.0相比于TensorFlow最多可以達到14倍加速。同時領(lǐng)先目前其他開源序列推理引擎,例如最多可比Faster Transformer快1.4倍。”王明軒介紹,訓練英法翻譯模型,pytorch 之類的框架需要一周,火山翻譯只需要2天多;而翻譯一句話,16層的神經(jīng)網(wǎng)絡(luò)業(yè)界普遍需要600多ms,LightSeq2.0只需要80ms。

總結(jié)起來,在各類場景中至關(guān)重要的火山翻譯產(chǎn)品,都離不開技術(shù)團隊的精心打磨。核心是大規(guī)模多語言預訓練新范式mRASP2和推理和訓練引擎LightSeq2.0的結(jié)合,保證了語種的多樣性以及互譯的精確度,輔之以并行文本生成能力Glancing Transformer 模型(GLAT)、端對端語音翻譯工具包NeurST等多項機器翻譯前沿技術(shù),使火山翻譯多次得到市場及學術(shù)界的認可。

在2020年國際機器翻譯大賽WMT2020上,火山翻譯團隊一共獲得七項冠軍:在39支參賽隊伍的激烈競爭中,火山翻譯以顯著優(yōu)勢在「中文-英語」的關(guān)鍵語向翻譯項目競賽上拿下了世界冠軍;此外,火山翻譯還拿下了「德語-英語」、「德語-法語」、「英語-高棉語」和「英語-普什圖語」語向機器翻譯項目的冠軍,還斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。

今年的WMT2021大賽,火山翻譯通過強大的并行文本生成能力GLAT,在受限資源賽道奪得德語到英語方向翻譯比賽自動評價第一。

WMT是由ACL舉辦的世界頂級機器翻譯比賽,主要宗旨是評估機器翻譯最新發(fā)展水平,傳播通用測試數(shù)據(jù)集和公共訓練數(shù)據(jù),改進機器翻譯評估評測方法。德英語向是該賽事競爭最激烈的大語種項目之一。自2006年以來,WMT已連續(xù)舉辦了16屆,參賽者來自世界各地的頂級企業(yè)、高校和科研機構(gòu),包括微軟、臉書、騰訊、阿里巴巴、百度、華為等,比賽結(jié)果被廣泛認可為機器翻譯技術(shù)的風向標。

此次也是GLAT在國際大賽的首次亮相,就成功擊敗了從左向右逐詞翻譯的“自回歸模型”技術(shù),打破后者在機器翻譯領(lǐng)域的絕對統(tǒng)治地位。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

自左向右生成(左)和并行生成(右)

相比于自回歸式翻譯系統(tǒng)自左向右的逐詞輸出,并行翻譯系統(tǒng)則采用了更新穎的并行生成技術(shù),在翻譯的過程中同時輸出所有的詞,從而可以獲得數(shù)倍的翻譯加速。“并行翻譯”是由機器同步輸出所有的詞,不依賴之前的輸出詞,翻譯速度將提高數(shù)十倍,甚至“句子越長,提升速度越明顯”。

同樣,為了進一步提升語音翻譯的準確度和翻譯速度,火山翻譯利用前述技術(shù)思路,將預訓練模型應(yīng)用在語音同傳中。

傳統(tǒng)基于級聯(lián)的語音翻譯系統(tǒng)的缺點之一就是自動語音識別轉(zhuǎn)錄錯誤頻發(fā),而火山翻譯推出的端到端語音翻譯工具包NeurST,利用預處理音頻數(shù)據(jù)集的簡單方法,繞過了轉(zhuǎn)錄步驟。不僅減少了滯后時間提升了翻譯速度,也使開發(fā)人員可以騰出時間從事更高級的語音翻譯工作。

3.技術(shù)開源,推動行業(yè)發(fā)展

火山翻譯團隊由分布在全球各地的科學家和工程師組成,平均年齡不到30歲,均有各大科研機構(gòu)和大型企業(yè)任職經(jīng)歷,但負責人表示,火山翻譯的成就很大程度仍歸功于字節(jié)跳動整個公司在技術(shù)端的開放。

“字節(jié)跳動是一個開放的架構(gòu),很多技術(shù)都會在內(nèi)部共享,比如字節(jié)人工智能實驗室(AI Lab)的前沿機器翻譯技術(shù)”,王明軒介紹,AI Lab為公司今天現(xiàn)有的產(chǎn)品和業(yè)務(wù)提供核心技術(shù)支持和服務(wù)。

在WMT2021上大放異彩的并行文本生成能力GLAT,就是火山翻譯團隊和AI Lab其他研究團隊合作的技術(shù)產(chǎn)出。其實,AI Lab已將很多AI技術(shù)應(yīng)用到實際產(chǎn)品中,用戶相對比較熟悉的可能是在抖音、今日頭條、西瓜等App中的應(yīng)用,火山翻譯也是字節(jié)跳動AI技術(shù)在產(chǎn)品研發(fā)層面的成功落地案例:通過內(nèi)部技術(shù)研發(fā)、產(chǎn)品經(jīng)理、產(chǎn)品運營等專業(yè)團隊形成一條“前沿技術(shù)+產(chǎn)品研發(fā)+運營反饋”的閉環(huán)。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

字節(jié)跳動開放的架構(gòu),成就了內(nèi)部技術(shù)的高復用率

除了支持公司產(chǎn)品和內(nèi)部辦公以外,火山翻譯將技術(shù)和服務(wù)能力集成于字節(jié)跳動旗下的ToB技術(shù)服務(wù)平臺火山引擎中,將火山同傳、火山翻譯API、火山翻譯Studio等在內(nèi)的一系列矩陣產(chǎn)品開放給更多行業(yè)的企業(yè)用戶們。

好的技術(shù)需要匹配好的工程能力來實現(xiàn)落地。有賴于火山引擎更加接近客戶端的反饋,火山翻譯的技術(shù)、工程團隊也可以打磨出更符合市場需求的解決方案。比如在去年12月12日,日本藝術(shù)家村上隆首場中國直播,吸引了百萬用戶的關(guān)注,這場跨國直播的成功也離不開火山翻譯提供的高質(zhì)量實時智能同傳字幕。

火山翻譯技術(shù)論文獲國際“最佳”,開源推動行業(yè)發(fā)展

影院級字幕翻譯在直播中保證了用戶體驗

為了給用戶更專注的體驗,免受翻譯字幕跳動帶來的視覺干擾,火山同傳根據(jù)應(yīng)用場景做出定向技術(shù)優(yōu)化,創(chuàng)新性地推出了“影院級字幕”方案。據(jù)介紹,在村上隆的直播中,火山翻譯團隊除了采用前沿的神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)進行模型訓練外,還針對直播場景引入了領(lǐng)域適應(yīng)技術(shù),將村上隆以往的訪談和演講數(shù)據(jù)用于優(yōu)化算法,并對口語規(guī)范化、專業(yè)術(shù)語定制都進行了特殊優(yōu)化處理,確保最終呈現(xiàn)的字幕能夠簡潔、精準。

借力于開放的技術(shù)體系,火山翻譯也選擇用更開放的態(tài)度推動產(chǎn)業(yè)發(fā)展。

“開源是推動科技進步的重要力量,我們受益于開源,更需要為開源社區(qū)做出貢獻”,王明軒表示,字節(jié)跳動已經(jīng)把包括LightSeq系列項目在內(nèi)的多種技術(shù)開源,與各界共享技術(shù)成果,希望能幫助廣大科研人員節(jié)約時間成本,為學術(shù)界和產(chǎn)業(yè)界激發(fā)創(chuàng)造力提供有力支持。

4.構(gòu)建B端增長曲線

在技術(shù)團隊的研發(fā)和實際案例的鍛煉后,火山翻譯逐漸有了較為全面的覆蓋能力和場景適應(yīng)性,對于產(chǎn)品的市場化方向,團隊也有了更清晰的認知。

“我們一直致力于更加行業(yè)化、個性化地解決用戶的需求,為B端客戶創(chuàng)造更大的價值。”王明軒表示,B端的營收更加穩(wěn)定,市場更廣闊,在未來2到3年內(nèi)是火山翻譯主要的覆蓋目標。

面向普通用戶,火山翻譯也推出了AR智能翻譯眼鏡以及火山翻譯瀏覽器版本,讓用戶體驗最新技術(shù)成果。“但C端更多是輔助作用,主要目標市場還是B端。”

選擇B端市場也是字節(jié)跳動的下一增長曲線所在?;鹕揭娓黝惣夹g(shù)的開放,意味著字節(jié)構(gòu)建B端業(yè)務(wù)的步伐正在加快,服務(wù)體系也愈加成熟。

近年來,互聯(lián)網(wǎng)科技巨頭們的商業(yè)化路徑逐漸清晰,先是聚集規(guī)模流量變現(xiàn)(比如廣告),接下來是挖掘技術(shù)的價值(大數(shù)據(jù)、云計算等更底層的基礎(chǔ)設(shè)施)。這條路是亞馬遜,阿里巴巴,騰訊等前輩們走過的,在這個馬太效應(yīng)依舊明顯的ToB市場里,年輕的字節(jié)跳動必須錨定優(yōu)勢才能進行差異化競爭。

火山引擎定位自己為“企業(yè)智能增長服務(wù)”,而增長,正是商業(yè)世界所渴求的,也是字節(jié)跳動在短短幾年內(nèi)創(chuàng)造的神話。

在現(xiàn)代工業(yè)物流體系下,商業(yè)增長不可能離開信息的獲取。在過去的幾年中,機器翻譯讓國際貿(mào)易增加了10%,而現(xiàn)今世界仍有上千種語言未能實現(xiàn)本地化,被稱為“長尾語言”,本地化意味著可以與說同一種語言的人群進行更廣泛的交流。一個很好的例子是,在非洲,斯瓦希里語已成為一種普遍的交流用語,實現(xiàn)斯瓦希里語的本地化意味著1600萬以其為母語的人和8200萬以其為第二語言的非洲人建立起了溝通。

當然,獲取新信息的需求對于每個地區(qū)的人們都存在,“全球現(xiàn)存有5000多種語言,400多種文字,AI加持下的機器翻譯是打破這種信息障礙,使不同語言的人們可以進行交流,了解對方的理想方式。”王明軒表示,除了商業(yè)意義之外,火山翻譯更希望能夠讓大眾體會到機器翻譯給日常生活帶來的便利,真正做到消除語言障礙,實現(xiàn)無國界溝通。(來源:電腦報)

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )