我查了下機器翻譯專利的申請量,于是有了些思考

近日,機器翻譯受到格外關注,很多關心中譯語通的朋友紛紛問詢機器翻譯的未來到底會是什么樣子?一時間被問得也覺得需要好好思考下。于是默默地、很是認真地梳理了2015年以來中譯語通在機器翻譯及其核心組件語料庫方向申請受理的專利情況,也想借以認真判斷一下和國內巨頭們的差距到底有多大。

我查了下機器翻譯專利的申請量,于是有了些思考162.jpg

 

為了比較準確的分析自家研發(fā)水平到底咋樣,所以還是比較認真的設定了一些標準。比如,近年來機器翻譯發(fā)展尤為迅速,特別是2016年神經(jīng)網(wǎng)絡算法的出現(xiàn)使得機器翻譯技術有了突破性發(fā)展,所以選取了時間區(qū)間2015年至今,在專利分類中G06F17(特定功能的數(shù)字計算設備或數(shù)據(jù)處理設備或數(shù)據(jù)處理方法)進行比對。此外,在專利檢索引擎我們使用了我們自家的JoveEye科技大數(shù)據(jù)平臺(www.joveeye.com)和合享Incopat專利檢索系統(tǒng)(www.incopat.com)交叉驗證,避免俺們自家的系統(tǒng)搞區(qū)別對待。

首先,為了避免遺漏,我使用最寬的條件進行檢索,將“翻譯”作為關鍵詞在專利分類計算機領域進行檢索,得到申請專利數(shù)量排名前10的公司列表如下:

我查了下機器翻譯專利的申請量,于是有了些思考487.jpg

 

然后我們再將“機器翻譯”、“文本翻譯”作為關鍵詞進行檢索,相關專利申請數(shù)量排名前五的公司如下: 

我查了下機器翻譯專利的申請量,于是有了些思考538.jpg

 

還是為了避免遺漏,我們又將“語音翻譯”、“圖片翻譯”、“圖像翻譯”、“視頻翻譯”、“字幕翻譯”、“輔助翻譯”、“翻譯系統(tǒng)”、“文件翻譯”、“網(wǎng)頁翻譯”作為關鍵詞進行檢索,相關專利申請數(shù)量排名前五的公司如下:

我查了下機器翻譯專利的申請量,于是有了些思考644.jpg

 

然后,我把“機器翻譯”、“文本翻譯”、“語音翻譯”、“圖片翻譯”、“圖像翻譯”、“視頻翻譯”一起合并作為關鍵詞檢索分析,專利申請數(shù)量排名前五的公司如下:

我查了下機器翻譯專利的申請量,于是有了些思考723.jpg

 

至此,在機器翻譯領域國內的大體情況已大概能知曉。但為了更加的嚴謹,我對這五家公司的專利類型做了些分析。因為在搜索過程中,我發(fā)現(xiàn)有些專利是指的機器翻譯應用裝置等相關的申請。所以,想看看真正機器翻譯核心技術研發(fā)的專利情況如何。

我查了下機器翻譯專利的申請量,于是有了些思考836.jpg

 

我查了下機器翻譯專利的申請量,于是有了些思考838.jpg

 

我查了下機器翻譯專利的申請量,于是有了些思考840.jpg

 

我查了下機器翻譯專利的申請量,于是有了些思考842.jpg

我查了下機器翻譯專利的申請量,于是有了些思考843.jpg

考慮到搜狗和網(wǎng)易有道在業(yè)內的知名度,我也對他們的相關專利進行了了解,按照我第一步最寬的條件以“翻譯”為關鍵詞進行檢索,結果是搜狗擁有18個,網(wǎng)易有道有5個。


我查了下機器翻譯專利的申請量,于是有了些思考924.jpg

在最開始我提到過,神經(jīng)網(wǎng)絡算法從2016年開始推動了機器翻譯技術的發(fā)展,各家也當然會加強此算法的專利研究。我特別看了一下從2015年到2018年的情況,百度擁有8個、中譯語通擁有7個、騰訊擁有2個、科大訊飛擁有2個,而且大部分發(fā)力階段都從2017年開始。

如果要全面分析機器翻譯技術的發(fā)展,光在國內肯定是不夠的。我又繼續(xù)以機器翻譯、文本翻譯為關鍵詞對于國外專利情況進行了檢索和分析,排名前五的公司不出意外的依然是耳熟能詳?shù)膰H大品牌:

我查了下機器翻譯專利的申請量,于是有了些思考1144.jpg

詳細的專利列表清單如下:

我查了下機器翻譯專利的申請量,于是有了些思考1158.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1159.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1161.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1163.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1165.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1167.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1168.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1170.jpg

我查了下機器翻譯專利的申請量,于是有了些思考1172.jpg

總算花了些時間,基本上從國內和國際兩個范圍,從大范圍到小范圍,分析了機器翻譯領域相關專利的分布情況?;诖耍瑤c思考與大家探討:

1、機器翻譯最大的意義是擴大了人類認知信息的廣度與深度;

2、#新摩爾定律#“每18個月全球新增信息量是計算機有史以來全部信息量的總和”。某種意義上,今天99%以上機器翻譯處理的信息,都是此前人類力所不能及的;

3、高質量的機器翻譯引擎,其單位時間內翻譯的速度與質量可能都是人類無法企及的;

4、所謂替代人類,孰優(yōu)孰劣,要有比較對象和對比標準;高質量引擎,不考慮消耗的時間,僅評比翻譯質量,如若還是垂直領域的,那么機器翻譯超過90%以上的人類完全可能。太多的替代與不可替代的討論,設定條件根本就不在同一個場景,如同雞同鴨講;

5、不相信機器翻譯,是因為沒見到過更好的,但并不代表不存在,如同今天的特斯拉無人生產車間,阿里京東全自動化的包裹物流,已經(jīng)可以無人工作。其實只是你沒見過而已;

6、有人問“人機耦合”是機器翻譯發(fā)展的未來嗎?對這個問題我做了認真思考。個人認為“人機耦合”輔助同聲傳譯,在會議口譯實踐中是個偽命題。與其人機耦合不如純機器翻譯質量提高來得更靠譜。同聲傳譯工作過程中,聽說時差(EVS,Ear Voice Span)一般為2-3秒鐘。同傳譯員耳機一側蓋住耳朵聽發(fā)言人聲音,另一側耳機是不蓋住耳朵,目的是要聽到自己講話的聲音,以控制譯員自身語音語調和語速。(我們自己帶耳機唱歌的時候會有感受,聽不到自己的聲音跑調太正常了。)因此譯員需要多任務的精力分配,聽懂,翻譯,重要數(shù)字記筆記,發(fā)言人表情,會議現(xiàn)場情況等等。在當前人類大腦多任務處理能力現(xiàn)狀,人機耦合的概念提出顯然是非專業(yè)人士的一廂情愿,顯得格外格外的牽強。


極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2018-09-30
我查了下機器翻譯專利的申請量,于是有了些思考
近日,機器翻譯受到格外關注,很多關心中譯語通的朋友紛紛問詢機器翻譯的未來到底會是什么樣子?一時間被問得也覺得需要好好思考下。

長按掃碼 閱讀全文