題記:12月21日,在“百度機器翻譯技術(shù)開放日”上,百度技術(shù)委員會聯(lián)席主席、自然語言處理部技術(shù)負(fù)責(zé)人吳華博士向到場嘉賓介紹了百度機器翻譯的最新進(jìn)展。百度在1年多前發(fā)布的,基于領(lǐng)先的人工智能、神經(jīng)網(wǎng)絡(luò)及自然語言處理技術(shù)的世界上首個互聯(lián)網(wǎng)NMT系統(tǒng),可謂引領(lǐng)機器翻譯進(jìn)入神經(jīng)網(wǎng)絡(luò)翻譯時代。這一成果刷新了業(yè)界對于機器翻譯潛能的估值,也掀起了人們對于全球溝通介質(zhì)的重新審度。
1887年,處于維多利亞時代尾聲的世界,第一次工業(yè)革命帶來的世界歷史上的第一次全球化正進(jìn)入高潮。盡管在大多數(shù)地區(qū),這種全球化伴隨著血腥的戰(zhàn)爭與殖民,但全球化正如一股不可抵擋的洪流席卷著世界的每一個角落。
在這一年,波蘭籍猶太人柴門霍夫博士創(chuàng)造了一種新的語言,并希望其也能隨著全球化浪潮而傳播,消除國際交往中的語言障礙,這門語言就是“世界語”。
人類無縫溝通曾經(jīng)的希望
這個毫無根基的語言借助歷史的大趨勢迅速傳播,甚至在民國初年傳入中國之后,被蔡元培、魯迅、巴金等人推廣傳播,進(jìn)入數(shù)十所大學(xué)的課程列表。
簡單易學(xué)是這種語言最大的特點,有人曾表示學(xué)會世界語只需要150小時,而說好世界語也不過需要1500小時,是最容易學(xué)習(xí)的外語之一。但這種語言本身也存在很多問題,作為一種新生語言,全球只有2000人把世界語作為母語,這導(dǎo)致了世界語在傳播上缺少足夠的根基,更多的是被很多人當(dāng)做興趣來學(xué)習(xí),而非一種實用性的語種。加之目前掌握世界語的人分布過于分散,使得這一語言很難被人們頻繁使用和傳播。
回顧世界語的歷史,從風(fēng)靡一時到只有2000人作為母語的沒落,這一語言可以說是伴隨著全球化的進(jìn)程起起伏伏,盡管如今鮮有人知曉,但世界語無疑是文化融合的先驅(qū)。
而時至今日,盡管以英美為代表國家的全球化進(jìn)程將英語推向世界,成為目前最為通用的交流語言,但英語也依然沒有實現(xiàn)世界語當(dāng)初的理想——消除國際交往中的語言障礙,因為尚有70%的人不會說英語,在30%會說英語的人中,還存在大量非英語母語國家的人不能熟練使用英語。
古老但擁有新希望的機器翻譯
有語言溝通的障礙,自然就有翻譯,而如今翻譯作為一種古老的職業(yè)也正在面臨一種新的溝通輔助形式的沖擊,那就是機器自動翻譯。不同于世界語,盡管目的同樣是消除語言障礙,但機器自動翻譯并不會改變?nèi)藗冊械哪刚Z,只是在人與人之間搭建一個溝通橋梁。
但機器翻譯并不是一個新鮮詞,早在1949年,美國數(shù)學(xué)家Warren Weaver就在其發(fā)表的《翻譯備忘錄》中正式提出了機器翻譯的思想。而在5年之后的1954年,美國喬治敦大學(xué)則在IBM公司的協(xié)同下第一次進(jìn)行了機器翻譯的試驗,拉開了機器翻譯實際研究和應(yīng)用的序幕??梢哉f機器翻譯同樣也有著70年的悠久歷史,那我們?yōu)槭裁磿f機器翻譯正在完成世界語當(dāng)初韋靜的事業(yè)——消除語言溝通障礙呢?答案是人工智能的應(yīng)用。
在過去,由于機器自動翻譯結(jié)果在準(zhǔn)確性和通順性上的問題,很多時候這種翻譯結(jié)果更多的只是能讓用戶知道大概意思,很難實現(xiàn)真正的“信達(dá)雅”。由人類親手創(chuàng)造的語言變化極其靈活,哪怕同一單詞,在不同地域,文化,語境甚至情緒里的意義也迥然不同。但隨著人工智能的應(yīng)用,機器自動翻譯與人工翻譯的差距正在縮小。
以目前在人工智能+翻譯上走的比較遠(yuǎn)的百度為例,百度翻譯所采用的技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的機器翻譯(Neural Machine Translation,簡稱NMT)技術(shù),這一技術(shù)的使用讓機器翻譯在多場景、長對話中的應(yīng)用表現(xiàn)得更出色。
而在百度采用NMT技術(shù)之前,基于短語的統(tǒng)計機器翻譯(SMT)方法是業(yè)界主流,這一模型最早成型于2003年,當(dāng)時愛丁堡大學(xué)的Koehn提出短語翻譯模型,加之同時期Franz Och提出的對數(shù)線性模型及其權(quán)重訓(xùn)練方法,使得機器翻譯較此前有了極大的進(jìn)步,并一直沿用至今。
在基于短語的統(tǒng)計機器翻譯(SMT)時代,最大的問題就是翻譯內(nèi)容讓人感覺像是多個短語或單詞拼湊,而非一氣呵成的一句話,以百度為代表的互聯(lián)網(wǎng)公司開始應(yīng)用基于神經(jīng)網(wǎng)絡(luò)算法的NMT技術(shù),目的就是為了解決這個問題,讓機器模擬人對語義的理解,從而給出通順的語句翻譯。比如百度在2016年5月推出的自動寫詩功能,就是利用了基于深度神經(jīng)網(wǎng)絡(luò)的翻譯模型,可以將詩歌韻律、平仄規(guī)則、語義完整性甚至意境都考慮進(jìn)去,得出的結(jié)果也自然不是那些平常會讓我們哭笑不得的“直譯”。
可以說,百度在2015年采用NMT技術(shù)取代傳統(tǒng)的SMT是開創(chuàng)了業(yè)界先河,做了第一個吃螃蟹的人,效果也顯而易見,目前百度可以支持全球28種語言、756個方向的相互翻譯,并成功應(yīng)用到拍照翻譯、跨境、出境游電商等多個場景。而代表國外先進(jìn)翻譯技術(shù)的谷歌在2016年3月才宣布“谷歌翻譯將會利用深度學(xué)習(xí)為用戶提供服務(wù)”。
機器翻譯會帶來新的“世界語”么?
隨著機器翻譯的發(fā)展,關(guān)于機器翻譯是否可以帶來新型世界語的討論也在國外開始出現(xiàn)。不過這種可能性或許并不存在。因為機器翻譯本身的價值并不是創(chuàng)造一種新的語言,而只是消除了原有不同語言之間的溝通障礙,起到彌縫的價值。
事實上,如今的機器翻譯能夠在越來越多的場景中應(yīng)用,未來的人類似乎也不需要一種通用語言,而是可以自由的使用本民族的母語。事實上,但凡涉及多語言應(yīng)用場景,無論在線教育,互聯(lián)網(wǎng)金融,還是傳媒和跨境交易,機器翻譯都可自如嫁接。
比如在出境游場景下,百度翻譯推出了一個新功能——拍照可以翻譯說明書、路牌、菜單,這一功能解決了用戶出境游時語言不通,需要一個個單詞或短語查詢翻譯的痛點,只需一拍照就直接給出翻譯結(jié)果。
盡管此前微信和有道詞典等產(chǎn)品也推出過拍照翻譯功能,但更多還是針對單詞和短語的翻譯,在說明書、旅游指南等長內(nèi)容翻譯上表現(xiàn)一般,甚至是無法實現(xiàn)翻譯,百度基于NMT的新翻譯技術(shù)則并不存在這一問題。
我們可以預(yù)見到的是,隨著語音識別和語義理解技術(shù)的提升,機器翻譯取代部分同聲傳譯的功能,實現(xiàn)實時的對話翻譯并不是不可能的事情。
機器翻譯的出現(xiàn)使得地球上任何一個角落的人享有平等、便捷、自由信息和服務(wù)成為可能,可以說,隨著技術(shù)的進(jìn)步,機器翻譯正在實現(xiàn)當(dāng)初世界語的愿景——全球無障礙溝通。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。