虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

近日,全球領(lǐng)先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機(jī)器翻譯領(lǐng)域提升相關(guān)速率3倍以上,占領(lǐng)現(xiàn)有機(jī)器翻譯高地?;⒉┛萍紕?chuàng)始人兼CEO陳燁表示,機(jī)器翻譯能力的明顯提升,不僅有助于提高人力效率,還能推動(dòng)計(jì)算機(jī)科學(xué)、數(shù)學(xué)、語(yǔ)言學(xué)、翻譯學(xué)等多種學(xué)科的快速發(fā)展,更對(duì)解決全球信息不對(duì)稱難題有著重大幫助,可加速文化全球化的快速融合。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer基于Transformer模型上進(jìn)行優(yōu)化與升級(jí),是第一個(gè)可以自由控制長(zhǎng)度的翻譯模型,顛覆了現(xiàn)有機(jī)器翻譯的流程和方式,以更靈活的序列打造機(jī)器翻譯的機(jī)制和流程。通過(guò)在不同分詞間進(jìn)行增加詞或者刪除詞的行為,突破了原有限定邊界,同步優(yōu)化整體語(yǔ)言表達(dá),提升譯文效果、摘要能力和時(shí)間效率,實(shí)現(xiàn)了目前最短時(shí)間達(dá)成長(zhǎng)文本高質(zhì)量譯文的記錄。據(jù)悉,Transformer是目前國(guó)際上公認(rèn)的最先進(jìn)的機(jī)器翻譯模型,由Google于2017年提出并開源,全球一線科技公司均在使用。

虎博科技算法負(fù)責(zé)人Jake Zhao參與了此次研究,并針對(duì)不同目標(biāo)、3組不同語(yǔ)言,在公開數(shù)據(jù)集上進(jìn)行了多次試驗(yàn)。研究結(jié)果顯示,新模型不僅在翻譯速度上至少提升3倍,更在譯文質(zhì)量上有了顯著變化。通常來(lái)說(shuō),現(xiàn)有Transformer模型需要對(duì)原文進(jìn)行至少20次以上的串行解碼行為,在測(cè)試集上的平均用時(shí)超過(guò)300毫秒,但Levenshtein Transformer可將串行的部分顯著減少,通過(guò)并行得進(jìn)行插詞、刪詞來(lái)完成翻譯。這樣的模型設(shè)計(jì)不但將翻譯的平均用時(shí)減到了100毫秒左右,還給予了模型在翻譯中的能動(dòng)靈活性。從譯文質(zhì)量上來(lái)說(shuō),基于Levenshtein Transformer的譯文質(zhì)量普遍評(píng)分更高。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer實(shí)驗(yàn)結(jié)果

以“ The too high rotation speed produces the reverse deformation”為例,Levenshtein Transformer模型在3個(gè)插入刪除周期后得到了質(zhì)量較高的翻譯。據(jù)了解,該模型在全球語(yǔ)言的轉(zhuǎn)換中游刃有余,支持任何語(yǔ)種的直接翻譯和總結(jié)。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer實(shí)驗(yàn)示例

Jake Zhao表示,Levenshtein Transformer利用模仿學(xué)習(xí)的方式來(lái)訓(xùn)練插入和刪除,讓機(jī)器能更快更自然地進(jìn)行模擬交流。同時(shí),由于插入刪除的互補(bǔ)性,借助模型插入后的句子去訓(xùn)練如何刪除、用模型刪除后的句子去訓(xùn)練插入,給予模型一個(gè)自我檢查修改的機(jī)會(huì),“例如,傳統(tǒng)的autoregressive模型只能實(shí)現(xiàn)長(zhǎng)度的增長(zhǎng)和停止,但如果模型發(fā)現(xiàn)生成了不佳的詞,并沒有辦法將該詞撤回。而得益于可實(shí)現(xiàn)插入和刪除的Levenshtein Transformer模型,它能自主、動(dòng)態(tài)得控制模型的生成長(zhǎng)度,讓模型解碼更具靈活性”。Jake Zhao進(jìn)一步解釋:“就和人類寫作文一樣,以前的模型不但是一個(gè)字一個(gè)字的寫,而且不支持寫完后修改,Levenshtein Transformer就更聰明,寫完了還會(huì)自己修改”。

目前,虎博科技每天的全球資訊及金融數(shù)據(jù)機(jī)器翻譯總量達(dá)上億萬(wàn)次。以使用虎博搜索查找海外上市公司活躍用戶為例,當(dāng)鍵入“拼多多活躍用戶”進(jìn)行提問(wèn),搜索后臺(tái)在一秒內(nèi)進(jìn)行千百萬(wàn)次計(jì)算,經(jīng)過(guò)對(duì)“拼多多”“活躍用戶的語(yǔ)言理解,識(shí)別并提取對(duì)應(yīng)“PDD”、“Active Buyers”對(duì)應(yīng)內(nèi)容,一鍵呈現(xiàn)最準(zhǔn)確的數(shù)據(jù),又如搜索“Tesla Model 3產(chǎn)能”,系統(tǒng)自動(dòng)理解產(chǎn)能的意義,抽取財(cái)報(bào)對(duì)應(yīng)的“Model 3 production”內(nèi)容,第一時(shí)間提供。這個(gè)過(guò)程中,虎博核心技術(shù)之一——機(jī)器翻譯就承擔(dān)了對(duì)公司名、業(yè)務(wù)描述及英文財(cái)報(bào)的理解和翻譯工作。

據(jù)了解,此項(xiàng)研究成果將應(yīng)用于虎博科技底層架構(gòu),全面提升現(xiàn)有機(jī)器翻譯能力,以更地道的理解和表達(dá)直接作用于虎博搜索、西梅、招股書、財(cái)神股票、虎博翻譯等產(chǎn)品中,打破全球金融信息的語(yǔ)言壁壘,為用戶提供更貼心的產(chǎn)品體驗(yàn)。隨著未來(lái)虎博科技業(yè)務(wù)領(lǐng)域的擴(kuò)展,優(yōu)異的機(jī)器翻譯能力也將同步應(yīng)用于更廣闊的全領(lǐng)域信息獲取范疇,加速文化全球化的融合。

文化全球化同經(jīng)濟(jì)全球化一樣,是一種世界發(fā)展的趨勢(shì),因?yàn)榍把乜萍嫉陌l(fā)展,人們的交流更加容易,文化之間的交流更加順暢。陳燁表示,虎博科技將持續(xù)致力于前沿科技的探索,以科技之力加速產(chǎn)業(yè)智能化的落地,推動(dòng)全球經(jīng)濟(jì)的發(fā)展,“我們將不遺余力的開展全球前沿技術(shù)交流,探索全球文化融合與發(fā)展的更多可能”。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-12
虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合
近日,全球領(lǐng)先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機(jī)器翻譯領(lǐng)域提升相關(guān)速率3倍以上,占領(lǐng)現(xiàn)有機(jī)器

長(zhǎng)按掃碼 閱讀全文