近日,全球領先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機器翻譯領域提升相關速率3倍以上,占領現(xiàn)有機器翻譯高地?;⒉┛萍紕?chuàng)始人兼CEO陳燁表示,機器翻譯能力的明顯提升,不僅有助于提高人力效率,還能推動計算機科學、數(shù)學、語言學、翻譯學等多種學科的快速發(fā)展,更對解決全球信息不對稱難題有著重大幫助,可加速文化全球化的快速融合。
Levenshtein Transformer基于Transformer模型上進行優(yōu)化與升級,是第一個可以自由控制長度的翻譯模型,顛覆了現(xiàn)有機器翻譯的流程和方式,以更靈活的序列打造機器翻譯的機制和流程。通過在不同分詞間進行增加詞或者刪除詞的行為,突破了原有限定邊界,同步優(yōu)化整體語言表達,提升譯文效果、摘要能力和時間效率,實現(xiàn)了目前最短時間達成長文本高質量譯文的記錄。據(jù)悉,Transformer是目前國際上公認的最先進的機器翻譯模型,由Google于2017年提出并開源,全球一線科技公司均在使用。
虎博科技算法負責人Jake Zhao參與了此次研究,并針對不同目標、3組不同語言,在公開數(shù)據(jù)集上進行了多次試驗。研究結果顯示,新模型不僅在翻譯速度上至少提升3倍,更在譯文質量上有了顯著變化。通常來說,現(xiàn)有Transformer模型需要對原文進行至少20次以上的串行解碼行為,在測試集上的平均用時超過300毫秒,但Levenshtein Transformer可將串行的部分顯著減少,通過并行得進行插詞、刪詞來完成翻譯。這樣的模型設計不但將翻譯的平均用時減到了100毫秒左右,還給予了模型在翻譯中的能動靈活性。從譯文質量上來說,基于Levenshtein Transformer的譯文質量普遍評分更高。
Levenshtein Transformer實驗結果
以“ The too high rotation speed produces the reverse deformation”為例,Levenshtein Transformer模型在3個插入刪除周期后得到了質量較高的翻譯。據(jù)了解,該模型在全球語言的轉換中游刃有余,支持任何語種的直接翻譯和總結。
Levenshtein Transformer實驗示例
Jake Zhao表示,Levenshtein Transformer利用模仿學習的方式來訓練插入和刪除,讓機器能更快更自然地進行模擬交流。同時,由于插入刪除的互補性,借助模型插入后的句子去訓練如何刪除、用模型刪除后的句子去訓練插入,給予模型一個自我檢查修改的機會,“例如,傳統(tǒng)的autoregressive模型只能實現(xiàn)長度的增長和停止,但如果模型發(fā)現(xiàn)生成了不佳的詞,并沒有辦法將該詞撤回。而得益于可實現(xiàn)插入和刪除的Levenshtein Transformer模型,它能自主、動態(tài)得控制模型的生成長度,讓模型解碼更具靈活性”。Jake Zhao進一步解釋:“就和人類寫作文一樣,以前的模型不但是一個字一個字的寫,而且不支持寫完后修改,Levenshtein Transformer就更聰明,寫完了還會自己修改”。
目前,虎博科技每天的全球資訊及金融數(shù)據(jù)機器翻譯總量達上億萬次。以使用虎博搜索查找海外上市公司活躍用戶為例,當鍵入“拼多多活躍用戶”進行提問,搜索后臺在一秒內進行千百萬次計算,經過對“拼多多”“活躍用戶的語言理解,識別并提取對應“PDD”、“Active Buyers”對應內容,一鍵呈現(xiàn)最準確的數(shù)據(jù),又如搜索“Tesla Model 3產能”,系統(tǒng)自動理解產能的意義,抽取財報對應的“Model 3 production”內容,第一時間提供。這個過程中,虎博核心技術之一——機器翻譯就承擔了對公司名、業(yè)務描述及英文財報的理解和翻譯工作。
據(jù)了解,此項研究成果將應用于虎博科技底層架構,全面提升現(xiàn)有機器翻譯能力,以更地道的理解和表達直接作用于虎博搜索、西梅、招股書、財神股票、虎博翻譯等產品中,打破全球金融信息的語言壁壘,為用戶提供更貼心的產品體驗。隨著未來虎博科技業(yè)務領域的擴展,優(yōu)異的機器翻譯能力也將同步應用于更廣闊的全領域信息獲取范疇,加速文化全球化的融合。
文化全球化同經濟全球化一樣,是一種世界發(fā)展的趨勢,因為前沿科技的發(fā)展,人們的交流更加容易,文化之間的交流更加順暢。陳燁表示,虎博科技將持續(xù)致力于前沿科技的探索,以科技之力加速產業(yè)智能化的落地,推動全球經濟的發(fā)展,“我們將不遺余力的開展全球前沿技術交流,探索全球文化融合與發(fā)展的更多可能”。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 比亞迪第五代DM技術問世,首搭秦L/海豹06 DM-i,開創(chuàng)油耗2時代!
- 小紅書沉帖降權怎么做,有效方法大盤點!
- 亞洲時刻京東送上電視好禮 以舊換新一體化服務讓低價更靠譜
- 互聯(lián)網(wǎng)營銷師和全媒體運營師的區(qū)別?
- 聯(lián)想集團車計算“超級大腦”概念機亮相
- 華策影視設立專項基金成立AIGC應用研究院
- 三部委審批,聯(lián)合發(fā)布9個新職業(yè),“互聯(lián)網(wǎng)營銷師”上榜
- 互聯(lián)網(wǎng)營銷師的報考條件是什么?
- 互聯(lián)網(wǎng)營銷師的適合人群有哪些?
- 互聯(lián)網(wǎng)營銷師行業(yè)前景怎么樣?
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。