AI「改造」鼠標,百度AI全面賦能羅技啟示錄

語音行業(yè)在2000年左右,迎來了第一個產業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。

當時人們把這個軟件安裝到PC上,就可以在計算機前面朗讀報紙或者新聞內容,或者錄入一些簡單的日常用語,識別率也還不錯。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識別的產業(yè)化應用的熱潮。

但由于當時PC是一個固定的環(huán)境,消費者已經習慣了鍵盤打字而不是對著屏幕說話,ViaVoice并沒有獲得廣泛認可。最終IBM于2003年將這個產品賣了。

但語音識別的產業(yè)化應用熱潮卻并沒有停止。4月12日,微軟公布了公司歷史上第二大金額的收購案,目標是語音識別巨頭Nuance Communications,交易價值達197億美元。

有意思的是,Nuance正是蘋果Siri語音分析背后的技術供應商。

而幾乎是同一時間,在大洋彼岸百度和羅技也宣布了一場圍繞語音識別的戰(zhàn)略合作。

4月13日,百度正式發(fā)布“語音輸入服務”并宣布百度大腦和羅技達成合作,將領先的AI技術全面賦能羅技外設硬件,首款產品即是羅技即將發(fā)售的VOICE M380「智能鼠標」。這款鼠標嵌入了百度AI技術,支持多國語言語音輸入、中英自由說和智能翻譯等創(chuàng)新功能。

某種意義上,這可以看作是ViaVoice的一種精神繼承,也是對微軟收購Nuance的價值肯定。

百度AI全面賦能羅技硬件

ViaVoice被變賣的6年后,語音技術產業(yè)應用迎來了第二波高潮,這一波熱潮以互聯(lián)網需求和實現為基礎。今天我們隨處可見的機器對話,也是在這一波高潮的基礎之上發(fā)展而來。

如今我們常在社交媒體上看到,一個大學生利用簡單工具+一塊芯片的結構,就能設計出可以語音操控的DIY設備。

當技術進步、產業(yè)成熟、消費者習慣養(yǎng)成、交互認知足夠以及場景需求等等因素疊加,使得語音交互有了快速發(fā)展的沃土。

這些都可算作是百度AI對羅技產品賦能的充分條件,也是羅技迫切實現產品智能化的來由。

但落實到具體產品上,有兩個不能忽視的因素:

在鼠標上加入「語音識別服務」模塊,對技術提供商的水平要求很高;

融合語音識別服務的傳統(tǒng)輸入設備,是滿足需求還是創(chuàng)造需求。

簡單點說,「智能鼠標」作為一個「新物種」,我們要重點關注的就兩個方面:好不好用和誰會用。

先說第一個因素。VOICE M380支持中、英、日三國語言,同時也支持中英文自由夾雜語音輸入,以及7種方言的混合語音輸入。同時,VOICE M380支持中譯英、中譯日、中譯韓、中譯法、中譯西、中譯泰、英譯中、日譯中8種語音翻譯。

從功能上看,VOICE M380基本覆蓋了日常生活、學習、商務等場景的語音和翻譯需要。從語音識別服務的技術內核看,這一次百度是將百度大腦的優(yōu)勢技術語音識別和機器翻譯功能拿出來優(yōu)先賦能羅技,其2019年百度推出并上線使用的流式多級的截斷注意力模型SMLTA,已經令中文語音識別率達到98.6%,且可以同時實現中英文混合識別、方言混合識別。

在機器翻譯方面,百度已經支持203個語種的準確翻譯,現在每天響應超過千億字符的翻譯請求,相當于2000部大英百科全書。而百度提出的語義單元驅動的AI同傳模型,已經達到了與人類相當的翻譯水平。

再說第二個因素。實際上,「智能鼠標」既是滿足需求也是創(chuàng)造需求。

一方面,「智能鼠標」在學習、游戲、商務場景下,可以很好的滿足用戶跨語種的交流需要,譬如游戲、商務郵件。

另一方面,對于小孩、老人、視覺障礙人群等日常打字輸入比較不方便的群體,語音輸入顯然更方便,這又是「智能鼠標」創(chuàng)造需求的一種體現。

而且,得益于百度AI技術的加持,VOICE M380在輸入效率上語音輸入每分鐘可高達400字,而多數打字員的輸入則為80-200字每分鐘。

無疑,具備語音識別服務的VOICE M380,可以使用戶擺脫大量敲擊鍵盤產生的疲勞感,輕松實現所說即所得。

搞明白了好不好用和給誰用這兩個因素,再回過頭看這一次百度AI對羅技的賦能,實際上是一次典型的定制化AI技術輸出,說明百度AI的技術落地已經可以實現模塊化運作,更具靈活性的按需輸出。同時,「智能鼠標」這樣的新物種出現,也是對其它硬件設備的一種啟示,萬物皆可AI,萬物皆可語音。

而且,就雙方宣布的信息來看,羅技旗下的設備還將繼續(xù)接入百度AI的技術,進而實現全面的智能化升級。

為什么是百度?

2019年11月28日,在百度大腦語音能力引擎論壇上,百度CTO王海峰博士對外公布了一組數據,百度大腦語音能力引擎日均調用量已經超過100億次。

而只過了不到一年時間,到2020年7月,這個數字就已超過155億次。

這155億次的語音能力調用量,除了百度App、百度地圖、小度音箱、百度輸入法等百度產品外,更多是來自被百度AI開放平臺賦能的產業(yè)公司。

在百度AI開放平臺官網,可以在「合作伙伴」這一欄下找到多達220家大大小小的公司,這些公司無一不是利用百度AI技術實現產業(yè)改造和升級。

而與語音技術有關的公司,可以舉兩個比較典型的案例,一個是創(chuàng)維電視,另一個是瓴岳科技信貸。

大屏IoT的行業(yè)痛點在于信息檢索難和設備控制操作復雜,而如果增加語音交互能力,則相當于重構了整個AIoT設備生態(tài)的交互體驗?;诎俣華I技術,創(chuàng)維已經在10個電視芯片型號、2500萬臺電視上為消費者提供語音交互功能。

瓴岳科技信貸將百度大腦的語音技術應用在貸后領域,依托百度大腦呼叫中心實時語音識別等AI服務對用戶語音的準確識別,瓴岳打造了降本提效的智能機器人。通過貸后智能機器人、智能語音質檢的應用,貸后人力投入降低61.47%,有效實現了合規(guī)和高效的運營體系,提高了客戶體驗。

這次百度將百度大腦所具備優(yōu)勢的語音識別和實時翻譯技術拿出來,全面賦能于羅技鍵盤、鼠標產品,也是百度首次通過羅技鼠標,在PC端實現了中英文自由夾雜語音輸入。

而這也恰恰說明,百度AI的技術落地具有足夠的靈活性。并且,通過這一次賦能羅技,外界也能清晰的感受到,AI所帶來的產業(yè)升級和改造,并不僅僅是滿足現有需求,更多的是創(chuàng)造需求,這就意味著傳統(tǒng)硬件設備在AI技術加持下,能夠產生新的溢價價值。

當然,迫切想要實現產業(yè)智能化改造和升級的合作伙伴,仍要看AI技術提供商的「底色」。

單以語音識別服務來說,作為國內AI領域的頭雁,百度的語音技術無論從準確率還是識別速度角度,對比市面上其他的一些產品都是具備優(yōu)勢的,而且百度還針對羅技桌面級的場景進行了單獨的優(yōu)化和適配,具備較強技術壁壘。

而所謂的優(yōu)勢,無疑正是百度自研的鴻鵠芯片。

去年4月百度發(fā)布了自研的鴻鵠芯片,語音喚醒率更高,尤其高噪聲下首次喚醒率提升10%以上,語音語義識別也更準確,識別錯誤率平均降低30%,同時待機功耗更低,相比傳統(tǒng)芯片下降90%。

換句話說,今天的語音技術競爭已經從云端開始向端側芯片延伸,而一顆芯片完成端側信號處理和喚醒成為一個明顯的市場需求。

這種AI語音芯片能夠顯著降低音箱的成本,并且提供更高精度的喚醒和識別能力。在汽車車載導航領域,AI語音芯片可以保證主芯片的負載安全,提升駕駛安全。

2020年,百度在智能音箱、車載導航和智能電視控制方面,落地了百度鴻鵠語音芯片

結尾

實際上,羅技VOICE M380鼠標并不是市面上唯一的語音交互鼠標產品,早在幾年前訊飛、小米、聯(lián)想等品牌也推出過類似的產品。而百度與上述企業(yè)有所不同,作為語音技術服務提供商,百度已經跳出了技術輸出這一階段,它所提供的服務已經是一站式AIOT語音解決方案。

譬如在TCL發(fā)布的C12量子點Mini LED智屏上,"度家-AIOT語音語義平臺"不僅為TCL提供語音識別單項調用服務,還提供語音語義全鏈路調用以及設備管理功能。

這或許是百度與其他語音技術服務提供商的最大區(qū)別之一,也是羅技選擇百度的理由之一。

但從科技產業(yè)的變革來看,語音交互將是未來十年甚至二十年的主要內容。

市場調研機構Strategy Analytics此前發(fā)布報告稱,到2023年,全球智能家居市場規(guī)模將達到1570億美元,而語音交互作為智能家居的底層交互系統(tǒng)之一,無疑將會得到空前的普及。

與此同時,在汽車電動化的進程中,車載語音也將成為一個汽車的標準化產品。所以,語音技術的未來發(fā)展想象空間是非常大的。

而百度作為中國AI發(fā)展的標桿、AI新型基礎設施,正持續(xù)對外輸出領先AI技術,加速產業(yè)智能化升級。

百度與羅技在發(fā)布會上還提到,基于百度大腦技術引擎,在未來將持續(xù)推動更多百度AI技術賦能羅技各類優(yōu)秀硬件設備。

這也讓我們有所期待,AI技術可以全面落實在人們的衣食住行各個方面,未來用戶在每個場景都能享受到百度AI帶來的便利。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2021-04-14
AI「改造」鼠標,百度AI全面賦能羅技啟示錄
語音行業(yè)在2000年左右,迎來了第一個產業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。當時人們把這個...

長按掃碼 閱讀全文