1969年7月20日,美國宇航員尼爾•阿姆斯特朗走出登月艙,標志人類征服了地球引力,而與其同時啟動的“機器翻譯”計劃 ,50年過去了,仍然是一個世紀難題?!∑鋵?,從公元前5000新石器時代開始,人們一直在為跨語言的溝通和交流堅持不懈的努力,從人工翻譯到機器翻譯,到今天的人機結合,7000年左右時光中均未有實質(zhì)性的進展和突破,那么人類語言有什么獨特之處,比登月還難的翻譯難究竟難在何處?人工智能驅動下翻譯難題如何破解?誰能回答這個終極之問?
人類語言的特點決定翻譯具有不可譯性
語言是人類后天文化、思維與社會環(huán)境等諸多因素作用的結果,不能離開人類大腦的分析而單獨存在,在多種因素的作用下,使得不同社會環(huán)境中的人群之間交流充滿障礙, 也使得不同語言間的轉換更為困難。
Transn傳神董事長何恩培認為:“語言是人類大腦思維產(chǎn)生反應和工具,是眼、耳、鼻、口、舌六維通過口一維的表達方式,而且是人類必須使用的、無可選擇的溝通方式;而且同樣語言和詞匯,不同場景含義是不一樣的,要結合經(jīng)歷、屬性等大腦產(chǎn)生反應進行分析定義,當語言發(fā)展到一個較為完備的狀態(tài)的時候,文字就順其自然的產(chǎn)生了,因此文字單獨存在沒有任何意義,文字要和大腦產(chǎn)生作用才能產(chǎn)生價值。”
在他看來,文字是文化的支撐,文化的形成是一個需要時間積累的緩慢過程,是一個群體的生活共識,當形成這個群體的共識文化之后,具有不可推論、不可預測和不可論證,比如一些文章文字順序對調(diào)或者沒有按照正常順序排列,并不影響人們正常閱讀。
例如下面這段話:
“研表究明,漢字序順并不定一影閱響讀。比如當你看完這句話后,才發(fā)這現(xiàn)里的字全是都亂的。”
我們能夠看得懂是因為我們眼睛獲取的信息到達大腦經(jīng)過分析,能夠獲取到正確的意思。
不可推論、不可預測體現(xiàn)在,對同樣事物的語言表達今天和明天表達語境、邏輯、心情等具有不一樣,無法整齊劃一的預測。
同時,由于語言內(nèi)部詞匯、句法等結構的巨大差異,以及語言作為社會、文化等向外表達綜合體現(xiàn), 不同群體間的語言無法在轉化中做到絕對的等值。
美國語言學家奈達在《對等的原則》中也指出:“在語言間不可能做到完全的對等, 因此也沒有完全準確的翻譯。譯文的總體影響只會接近原文, 而不可能在具體內(nèi)容上一致”。
技術性本質(zhì)決定機器翻譯具有天然的弊端
機器翻譯是通過計算機實現(xiàn)從一種自然語言文本到另一種或多種自然語言文本的翻譯,涉及到自然語言(Natural Language)的拆分、轉換、分析、組合,還要將語意和語境理解分析,將詞匯嵌入其中搭配組合,并且形成記錄不斷修正、糾錯,已涵蓋了自然語言處理的所有技術。
從起初的建立詞典和語法規(guī)則庫,到語料庫和統(tǒng)計學規(guī)律,再到當今流行的人工智能神經(jīng)網(wǎng)絡,無論機器翻譯如何發(fā)展, 終究逃脫不了其技術的本性。
從其本質(zhì)來看,機器翻譯是一種“拆解”方式,即人為地將自然語言劃分為語法、結構等,用規(guī)則約束它, 把拆分的碎片化納入“語料庫”中, 再賦予一定的算法模型,但值得注意的是,人類語言是不能被形式化、單義化、被強求和程序化的,否則這種 “自然性”被破壞之后,就缺乏了其本身所具有的藝術性、模糊性和靈活性。
人類的語言是較復雜的, 人與人交流的時候都有可能產(chǎn)生誤解, 更不用說機器了, 所以機器翻譯或許可能無限接近人能夠讀懂和理解的能力,滿足基本“正確性”要求,在實際的翻譯過程中不是簡單的對字面意思進行翻譯, 還需要對作者想要表達的言外之意進行深入領會, 這是機器所欠缺的。
圖注:百度指數(shù)提供的“人工翻譯”“機器翻譯”關注度走勢圖
近些年來,基于神經(jīng)網(wǎng)絡的翻譯可以學習和收集信息模仿人類大腦的神經(jīng)元建立聯(lián)系,充分利用上下文信息,對句子進行整體編碼和解碼,從而生成更為流暢的譯文,于是人們樂觀地認為機器翻譯將替代人類時代來臨,使用時才發(fā)現(xiàn)翻譯質(zhì)量太差,開始懷疑機器翻譯而回歸到人工翻譯。
Transn傳神認為,盡管機器翻譯在一定程度上保證翻譯的高效性和準確性,但是可讀性和流暢性始終存在很大欠缺,滿足不了人們閱讀精細化的需求,如果要保證翻譯具有流暢性和可讀性,又要有“言外之意”,必須需要人工的干預,即需要具備一定能力的專家對機器翻譯內(nèi)容進行修改審校,彌補其不足。
所謂的“人工干預”,就是機器輔助人翻譯的“譯后編輯”,翻譯的效率背后還是由人類譯員的能力決定的。
人工翻譯“非標化”和“極限值”決定翻譯難以有發(fā)展
翻譯活動本身不僅僅涉及語言本身, 語言背后的社會、文化、經(jīng)濟、政治等因素決定了其是一個跨學科的交際行為,是人類譯者在一個復雜的生態(tài)系統(tǒng)中進行適應、進化的過程,是一個非標化的翻譯活動。
如果把一篇文章給1000個不同的人翻譯,結果都不一樣,因為每個人教育背景、知識環(huán)境、文化、情感等不一樣。
值得注意的是,人類譯員在翻譯效率上劣勢,決定了單純依靠人工翻譯難以有量的發(fā)展,無法滿足人類的需求。
Transn傳神董事長何恩培舉了個實例,假設譯員翻譯的極限速度分鐘180個字,人的閱讀每分鐘1500字,二者有 7-15倍的差距,人工翻譯難以滿足人類實際閱讀速度需求。
在當今信息爆炸時代,人們學習和獲取知識的速度以及需求也在急劇增長,人工翻譯的極限的天花板決定了其發(fā)展難以跟上信息的裂變式速度。
圖注:人類知識數(shù)據(jù)的增長周期
聯(lián)合國教科文組織的研究表明:在18世紀時,知識更新周期為80-90年;19世紀到20世紀初,知識更新周期縮短為30年;上世紀六七十年代,周期為5-10年;而進入新世紀,已縮短至2-3年,2010年之后周期變?yōu)?年。甚至有人預測,2020年,知識更新周期將在每73天內(nèi)翻1倍。
人類語言猶如一條復雜的地下河,人類一直借助機器和人工智能破解“跨語言溝通”翻譯難題,機器翻譯、人工翻譯以及二者結合的人機共譯模式下均各有弊端,但人類從未放棄過嘗試和探索,Transn傳神始終以“讓人類溝通沒有語言障礙”為使命,提出第三產(chǎn)能“Twinslator”全新理念,讓“人賦慧于機器,機器賦能于人”,未來已來,其或將成為解決人類多語溝通的最佳實踐手段。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領域達成戰(zhàn)略合作伙伴關系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。