進入2016年,各大科技巨頭、投資公司、分析機構等都在不斷發(fā)布、解讀著關于人工智能( Artificial Intelligence)的各種消息,作為吃瓜群眾的我們由此也逐漸知道了很多高大上的“黑科技”。
比如谷歌、百度在干著一件“人工智能+汽車”的大事,即無人駕駛;蘋果、微軟、搜狗等致力于將人工智能技術與語音服務場景結合,今年8月,搜狗推出全新語音交互引擎“知音”;此外,IBM花了大約250億美元來收購和完善Watson系統(tǒng),希望靠人工智能來預測未來,并應用于金融、交通、教育等領域;阿里巴巴、螞蟻金服在積極探索人臉識別,希望利用人工智能讓移動支付更加便捷和安全。
處于風口的人工智能,甚至也出現(xiàn)在了好萊塢劇本中,迪士尼動畫《超能陸戰(zhàn)隊》中的機器人大白就是個典型的“人工智能+醫(yī)療”的產(chǎn)物,它就像醫(yī)療伴侶,能夠快速掃描、檢測出人體的不正常情緒或受傷并對其治療;就連時下爆紅的HBO連續(xù)劇《西部世界》也在探討著擁有自主思維的機器人與人類世界發(fā)生的種種沖突和對抗。
盡管在預言家的口中,人工智能將在未來的現(xiàn)實生活中無孔不入,無人駕駛、機器人管家、人工智能醫(yī)療方案等等,但目前對于大眾而言,我們當下階段接觸到人工智能最主要的方式,仍是互聯(lián)網(wǎng)科技公司提供的一些基礎性服務,比如搜索、輸入法、導航等產(chǎn)品中。在其背后,我們都發(fā)現(xiàn)了語音交互的影子。事實上,智能語音交互已經(jīng)成為各大互聯(lián)網(wǎng)巨頭角逐的關鍵性領域,因為說話是人們生活最常用到的溝通方式,隨著移動互聯(lián)網(wǎng)的深入,智能語音交互日益成為用戶的痛點。
從語音識別到實時翻譯,人工智能較量升級
智能語音識別是包括谷歌、搜狗、訊飛等科技公司深耕的重要語音技術,從概念上來看,語音識別是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g,其應用于智能終端則可以帶來更便捷的服務,比如語音輸入、語音撥號、語音導航、語音拍照等。麻省理工科技評論認為,“語音識別將成為人機交互的重要方式?!?/p>
在人們印象里,智能語音識別的代表性產(chǎn)物莫過于微軟Cortana 、蘋果Siri等語音秘書類產(chǎn)品,它們盡管使用便捷,但在應用場景和實用性上卻有不少的限制。因此,語音識別作為一項重要且基礎性的人機交互技術,如何更好的滿足更多的應用場景,同時具備很好的實用性,也成為語音巨頭們競相突破的關口。
在剛剛結束的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,搜狗公司CEO王小川就展示了在智能語音交互領域的最新成果——語音實時翻譯。通過該技術,搜狗 CEO 王小川的中文講話內(nèi)容被實時識別為文字并翻譯為英文在屏幕上顯示,將王小川關于人工智能專業(yè)領域的報告進行機器同傳。
例如,當王小川說到「搜索的未來就是人工智能時代的皇冠」時,屏幕上實時顯示出了「In the future, search will be the Crown of the AI Era」,機器還能隨著語句的逐漸完整,根據(jù)語義自動修改調整之前識別的內(nèi)容。這也是全球首次基于神經(jīng)網(wǎng)絡的實時機器翻譯技術在大型活動上的展示,可謂是“技驚四座”。
王小川透露,這次推出的語音實時翻譯,融合了業(yè)界領先的端到端神經(jīng)機器翻譯技術以及基于實例的翻譯技術,基于大數(shù)據(jù)和深度學習,涵蓋了搜狗自主研發(fā)的語音識別、機器翻譯兩項重要技術,翻譯的結果比傳統(tǒng)機器翻譯更加流暢,效果更好。
無獨有偶,在搜狗實時翻譯發(fā)布僅過了兩天,國內(nèi)另一家語音巨頭科大訊飛也在其發(fā)布會上展示了包括語音聽寫、實時互譯、車載語音交互系統(tǒng)等語音交互成果。
在筆者看來,搜狗和訊飛在語音實時翻譯技術的成果,反映了國內(nèi)語音巨頭在人工智能領域的較量正在升級,且都在用戶場景和實用性上做更大的突破,可以認為是代表了國內(nèi)該領域的最高水平。兩家公司在技術上孰高孰低,目前尚無定論。
從目前看來,搜狗對于語音技術的應用,更加to C(用戶),訊飛語音則to B(企業(yè))多一些。搜狗的優(yōu)勢在于不僅擁有大量的數(shù)據(jù)資源、龐大的用戶量,也擁有完善的搜索、輸入法、地圖導航等產(chǎn)品布局,因此搜狗語音技術更能直面用戶的實用性需求;訊飛則擁有更廣泛的開發(fā)者、廠商合作關系,其語音解決方案將主要通過廠商合作或銷售方式應用于車載系統(tǒng)、教育、家居、機器人等領域。
基于深度神經(jīng)網(wǎng)絡實時翻譯如何實現(xiàn)
在搜狗、訊飛相繼展示語音實時翻譯成果后,外界紛紛驚呼這種技術甚至將會顛覆專業(yè)同聲傳譯從業(yè)者的飯碗,同時對于其背后的技術原理尤為感興趣。目前在互聯(lián)網(wǎng)上,關于訊飛實時互譯技術背后的原理解讀仍然較少,搜狗則在近期一場媒體溝通會上,主動揭開了搜狗實時翻譯技術的神秘面紗。
搜狗語音交互中心技術負責人陳偉介紹,傳統(tǒng)機器翻譯所采用的主流方式叫“統(tǒng)計翻譯”,從語料庫大量的翻譯實例中自動學習翻譯知識,然后利用這些翻譯知識自動翻譯其他句子。這就需要把整個建模流程分成對齊模型、分層模型等多個模型,每個模型完成特定的很小的功能,最后串起來完成復雜的機器翻譯系統(tǒng)。在這個過程中,每個模型的錯誤也會不斷疊加。
搜狗語音實時翻譯,在實現(xiàn)路徑上不同于傳統(tǒng)機器翻譯,它使用的端到端神經(jīng)網(wǎng)絡翻譯模型通過編碼端獲取源端句子的分布式表示,利用注意力模型聚焦源端,使用循環(huán)神經(jīng)網(wǎng)絡生成翻譯結果,準確率可以提升30%-40%。從系統(tǒng)框架來看,主要包括“發(fā)音”、“語音斷句”、“語音識別”、“文本斷句”、“機器翻譯”、“輸出判斷”等若干部分。
從實用效果來看,在近期人工評測中,搜狗機器翻譯在演講、旅游、閑聊、日??谡Z等領域,采用五分制人工評分能達到 4.4 分,逐步走向實用化。陳偉透露,目前搜狗語音識別準確率已超過97%,識別速度達到了400字每分鐘,語音輸入日頻次高達 1.9 億次。
搜狗將該實時翻譯技術命名為SNMT(Sogou NeuralMachineTranslation),這不免讓人將其與谷歌的GNMT(GoogleNeuralMachineTranslation)聯(lián)系一起。今年9月,谷歌宣布,網(wǎng)絡和移動版的谷歌翻譯將使用新的神經(jīng)機器翻譯系統(tǒng),并以GNMT命名,它能讓翻譯系統(tǒng)不再像以前一樣逐字逐句的翻譯,而是根據(jù)整篇文章的大意來對句子進行分析。在新技術使用后,翻譯錯誤可減少 60%及以上。
陳偉介紹,兩者的基本構架有類似的,但還是有著相當大的差異。谷歌神經(jīng)網(wǎng)絡機器翻譯使用了一個深度的長短時記憶神經(jīng)網(wǎng)絡,該網(wǎng)絡含有8層的編碼器和解碼器,而搜狗目前最多只有 5 層。
在我看來,這就意味著谷歌需要投入更多的資源和人力來攻克更為復雜的架構(當然潛力也更為巨大),而搜狗在反應速度上將更具有優(yōu)勢,目前它的延遲只有 2 秒,而在準確性上,搜狗由于已經(jīng)通過搜狗語音積累了大量中國人的口語語音數(shù)據(jù),也可以一定程度上彌補由層數(shù)所造成的劣勢。
結語
從全球人工智能的發(fā)展和趨勢看,圍繞智能語音交互誕生的成果無論從數(shù)量和實用性上看,仍然是其他人工智能領域所不能比擬的。隨著語音實時翻譯技術的成熟,它將可能應用于更多的生活和工作領域,但它也只是人工智能真正改變世界的一個節(jié)點而已。未來暢想的無人駕駛、遠程醫(yī)療、機器人管家也許終將有一天會變成現(xiàn)實,他們也都離不開語音交互這個重要關口。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 突然“換帥”求變!良品鋪子真急了?
- “小紅書電商退貨率最高?但…我還得做下去!”
- 技術破壁+硬核突圍,曙光存儲登頂SPC-1測試
- AI界奧斯卡頒獎:Deepseek 10天沖榜眼,國產(chǎn)視頻雙星吊打Sora
- 從生產(chǎn)關系變革來看,人類一定會被AI取代
- 特朗普加關稅,沃爾瑪趁火打劫要求降價,中企供應商集體抵制
- 韓國人開始大量買入中國股票,3.5萬億掃貨,背后原因不簡單
- 海底撈驚現(xiàn)“小便門”, 4年股價暴跌80%,張勇夫婦財富縮水1900億
- Manus爆紅背后,超8萬家AI企業(yè)倒閉,流量神話還是資本鐮刀?
- 長和與貝萊德達成228億美元交易,時隔26年,美國重掌巴拿馬運河
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。