原標題:從萬物靜默到聲情并茂:百度輸入法的AI發(fā)聲計劃
當我們討論AI的時候,常常會將注意力放在人類未來、城市發(fā)展、經濟動能等等宏大敘事上,卻往往忽略了很多日常細節(jié)中AI帶來的變化。比如,輸入法。
輸入法早已充斥在我們生活的每一個角落,如同一雙虛擬的手,為每一個人延展出恢弘多彩的網絡世界。
而輸入法所連接的每一條評論、每一次對話、每一段博文,都或多或少有著可以被AI所改變的地方。
在今天看來,更好的智能輸入法,意味著更清晰的用戶剪影,更順滑的使用體驗,也意味著更多流量和交互入口,正在技術帝國中發(fā)揮越來越重要的作用。
百度高級副總裁王海峰
如今,各大輸入法廠商都在暗自發(fā)力,希望掌握更強大的智能輸入技術。今天剛剛亮相的百度輸入法AI探索版,就把全語音引入了輸入法,讓我們看到了一場值得思考的輸入法技術進階感官實驗。
新渴求與新方向:網上沖浪注定投入AI的懷抱?
在探討百度輸入法AI探索版之前,有必要先梳理一下,AI對輸入法的改變到底能在哪些維度進行滲透。
比如我們能感受到,輸入法行業(yè)之怪現象,就是我們能在網上沖浪的各個環(huán)節(jié)看到輸入法工作的身影,而且每個頭部產品的用戶體量都不小,可仔細一想,卻集體面目模糊,很少有明顯的差異化,更不用提讓人產生改變世界的興奮感。
這樣一個超級流量入口,在渠道成本持續(xù)增長的今天,是廠商們必須努力刷出存在感的必爭之地。不能再依靠用戶慣性混吃等死,但那些長期存在于全行業(yè)的問題并不能以常規(guī)方式克服:
比如文本輸入,存在著輸入效率低、詞匯聯想錯誤率高、功能個性化不足等種種問題,很難滿足用戶的體驗需求。尤其是在大量老年人、兒童、殘障人士涌入互聯網之后,文本輸入的弊端越來越清晰地顯現出來。
這種情況下,我們希望語音輸入承擔起更多的工具角色,卻又受困于識別準確率、NLP技術瓶頸的限制,需要投入很大的技術研發(fā)資源,決定了只能是少數硬核技術玩家的舞臺。
另外,網絡交互場景也前所未有地碎片化。比如兒童既有查閱資料的需求,也有游戲交流、視頻直播的需求,如何同時滿足不同人群多樣化的交互場景且穩(wěn)定可靠,非常有挑戰(zhàn)性。
總的來說,輸入法可以說是互聯網世界的一面鏡子,各種用戶各種需求的痛點和問題在這里被集中投射出來。那么要刷出存在感的路徑也就很清晰了,做出讓絕大多數人能夠無學習成本、多場景耦合的輸入法產品。
要做到這一點當然很難,但幸好技術的發(fā)展也帶來了很多命運的禮物,比如說——AI。
打造AI交互“樣板間”:聲情并茂的百度AI輸入法有何不同
死磕AI的百度,這次在輸入法上的體驗革命,堪稱決絕。最清晰地體現在,這是國內首款默認全語音輸入的產品,并且把表情、肢體等互動與虛擬世界相連接,形成了一種顛覆式的交互方式。
在暢想中,用語音這種最為簡單、老少皆宜的方式進行輸入,無疑是學習門檻最低、群體包容性最高的方式。但在現實中,很少有廠商能夠如此大刀闊斧孤注一擲。
從這個角度來看,百度輸入法AI探索版,無疑為AI交互技術在輸入法領域的應用打造了一個獨一無二的“樣板間”,讓AI的作用清晰地躍然眼前。
首先是語音技術上,百度的流式截斷多層注意力建模(SMLTA),解決了傳統Attention模型在識別中的時延性問題,成為網絡大規(guī)模在線語音實時交互的現實基礎支撐。百度輸入法在線語音準確率依然好于最優(yōu)競品15%。
而在一些網絡連續(xù)性不太強的地方,比如海外旅游、電梯地鐵隧道等離線場景中,百度持續(xù)優(yōu)化的Deep Peak 2系統,也能實現精準的語音輸入,高于行業(yè)平均水平35%。
AI在語音方面的另外一個比較重要的能力,就是識別算法對語音特征的精準細分。基于此,百度輸入法AI探索版輕松carry中英文混雜、花式普通話、中英方言口音等障礙,大大降低了“五環(huán)外人口”網上沖浪的難度,成為目前唯一實現了高精度“中英自由說”和“方言自由說”的輸入法產品。
另一個AI帶來的突破,在于全感官的交互成為可能。網絡已經成為復雜的社交功能載體,除了文字交流之外,還可能涉及直播、虛擬人像等新玩法。但在傳統輸入法中,這些需求幾乎很難被滿足。除了硬件上的諸多限制,更多需要人臉識別、圖像分割、神經遷移一類的技術。百度就結合AI技術,得到了新的解決方案,推出了拍立活、秀場、凌空手寫等新功能玩法。
比如可以讓寵物或偶像照片,結合用戶自己的動作做出相同的表情;或者是讓用戶自由穿越各種虛擬場景,打破次元壁;凌空手寫如同隔空打怪,在空中書寫也能被流暢識別,據說目前整體識別率已達到大規(guī)模應用的要求,不失為一種新的裝逼神器。
AI在產業(yè)端登場之后,我們已經見證了它在眾多領域提升效率的傳奇故事。從百度“第一個吃螃蟹”推行全語音的舉措來看,一旦沖破識別精度和語義理解的技術瓶頸,語音輸入就可以憑借絕佳的技術普適性,從“常年輔助”變成“最強王者”。而在這背后,AI作為勝負手,是毋庸置疑的。
不止于輸入法:AI崛起意味著什么
AI的能量正在將老人、外國人等人群無差別地引入自由輸入的暢快世界,可能是科技體現出人文溫度的瞬間,也是輸入法從工具屬性到AI連接點的自我進化。
而對于百度這樣將AI作為產業(yè)抓手的企業(yè)來說,輸入法也正在反哺AI,從三個角色改變技術的面貌:
1.最貼近大眾的技術抓手:截至2018年底,百度輸入法月活躍人數已達5億,語音日請求量峰值突破5.5億,AR表情使用次數超過1億。正是大眾行為的自發(fā)選擇,讓下一代輸入法的形態(tài)呼之欲出??緼I來協助提升輸入效率甚至革新社交方式,輸入法顯然是最好的AI技術輸出窗口和連接點。
2. 新交互技術的試驗田:在越多越多企業(yè)將人臉識別作為互動新想象力的時候,選擇輸入法作為AR、annimoji等CV技術的輸出窗口,顯然成為百度技術版圖中必不可少的重要補充。
3.海外市場的“春風化雨手”:出海對于大多數中國科技企業(yè)而言都是挑戰(zhàn),也是難題。而輸入法這樣的工具型產品,可以“潤物細無聲”地潛移默化,快速打入市場并輸出技術能力,同時更好地輸入和適應不同文化的知識結構。
比如百度輸入法AI探索版,其日文輸入法的語音識別精度目前位列行業(yè)第一,已經成為日本最大的第三方輸入法產品;在印度市場的表現也很出色,語音功能的使用率達到21%。
在AI的加持下,還和Hello Kitty、小黃鴨、小王子、格林奇等全球100余個知名IP達成合作,推出了一系列IP皮膚和表情,讓本地化運營如虎添翼。
不難看出,利用AI實現輸入法的能力進擊,雖然只是一個產品方向的小切口,卻把錯綜復雜的技術升級、功能迭代和全球市場需求,帶到了有序的新方向上,不僅僅是一項增益技術,更是產業(yè)掘金的必由之路。
而百度技能全開、先下一城,會給亟待沖出舒適區(qū)的輸入法之戰(zhàn)帶來哪些震動,值得期待一下。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。