為什么很牛的訊飛輸入法今天才火,還得靠羅永浩?

錘子M1手機發(fā)布會結束之后,M1系列手機能否在諸多強敵面前成功突圍眼下還不明朗,然而,多次被老羅推介的輸入法,訊飛輸入法卻意外地火了起來卻是事實。

在發(fā)布會之后的幾天,這款輸入法甚至成功登頂了AppStore 免費榜,老羅可能不是一個好的產(chǎn)品經(jīng)理,但是,老羅一定是一個好的銷售??瓷先?,訊飛輸入法團隊過去幾年折騰的效果,還不如老羅三小時發(fā)布會上的賣力推介。要知道,這款輸入法最早的版本可追溯到2010年10月。

在這場發(fā)布會之后,我以及朋友圈中的不少朋友,都下載了訊飛輸入法,體驗之后大家的答案是類似的:wow,驚艷、震驚、激動。大家之前沒有想到語音輸入法的識別率可以做到今天這樣的程度,在噪音環(huán)境比如大馬路上,哪怕你的普通話不是很標準,它依然可以準確地識別。

它還支持粵語、四川話、東北話、河南話、河北話、閩南話、客家話、貴州話、云南話、湖南話、山東話、山西話、陜西話、江西話、上海話、天津話、南京話、武漢話、合肥話等方言。甚至還可直接將你的語音實時地轉化為日語、韓語、英語,或者反過來,這在我們出去旅游時與歪果仁交流會很方便。

更讓人驚喜的是,它可識別一大段一大段的語音,并且自動斷句,加上標點。這一點還不夠理想,有時候斷句會出錯,還有總愛加感嘆號。

整體而言,訊飛輸入法已完全具備實用性了。

這段時間我一直都在用訊飛語音輸入法,尤其是在走路的時候,在邊吃飯邊玩手機的時候,在躺著不愿意打字的時候。如果我不告訴聊天對象,對方不大可能察覺出來我是用語音而不是用鍵盤敲的字,簡而言之:這款輸入法的智能程度,已經(jīng)順利通過了圖靈測試。

語音輸入不是第一次“火”。

2011年,iPhone 4s面世,這是喬布斯的遺作,雖然是由庫克發(fā)布,但這款手機從最初構想到最后設計均是喬布斯在主導,它最大的亮點就是引入了語音助手Siri。在這之后,Google Now被加入Android,國內(nèi)也掀起了一陣子“中國Siri”潮,科大訊飛是玩家之一,除此之外還有小智360、蟲洞,以及搜狗、百度等玩家,科大訊飛的投資者中國移動也湊熱鬧找訊飛定制了“靈犀語音助手”。

記得2012年前后,我安裝了不少語音助手,還有輸入法,并且在室內(nèi)將它們進行對比,雖然略有差異,但都讓人十分失望——識別效果太差,尤其是在我普通話不夠標準的情況下。

2013年我有幸受科大訊飛邀請去他們位于合肥的總部進行了參觀,在他們的體驗廳我感受到了科大訊飛在語音領域的扎根之深,那時候科大訊飛還是兩條腿走路,一邊是做教育等行業(yè)解決方案,主要收入來自于B端,一邊已開始布局輸入法等C端產(chǎn)品,具體可看當時的文章《科大訊飛,站在十字路口》。

2014年再次去科大訊飛時,發(fā)現(xiàn)他們已在重點關注物聯(lián)網(wǎng)、智能硬件等新型設備——這些設備看上去比手機更適合語音輸入,比如給電視換臺、讓汽車開窗。不過,直到老羅在M1發(fā)布會上介紹訊飛輸入法的效果之前,我都沒有想到語音輸入法能做到這個程度。

為什么這么好的產(chǎn)品,現(xiàn)在才火?

從技術層面來看,這幾年基于深度學習的人工智能技術,給語音識別帶來了全新的技術突破。

語音技術之前是基于規(guī)則,識別率做到90%要再提高一個百分點就非常困難。然而有了深度學習技術,基于機器學習對海量語音進行大量統(tǒng)計再不斷改進算法,讓語音識別乃至語義理解有了質變,準確率、抗噪力以及口音容錯性大幅提升。且支持更多方言,和翻譯變得更加容易——基礎模型不變,只需面向不同語言進行對應領域的算法優(yōu)化即可。

在2012年開始投入語音技術研發(fā)的百度就采取了基于深度學習的語音算法,Deep-Speech,百度首席科學家吳恩達曾對外媒表示這個技術在噪音環(huán)境下的識別能力比Google、微軟等公司的要好。今年年初,百度的深度語音技術被《麻省理工科技評論》評為“十大突破性技術”。當然,搜狗、以及訊飛的語音技術,同樣是基于深度學習技術。百度有百度大腦,訊飛則有訊飛超腦。

還有,語音交互的“引爆點”、人工智能的“引爆點”到來了。

每一項改變世界的應用背后,都是大量新型技術的交叉綜合應用,汽車涉及到機械、材料、能源等等,計算機涉及到芯片、存儲、硅材料、網(wǎng)絡、人機交互諸多技術,語音交互的普及則涉及到網(wǎng)絡、算法、數(shù)據(jù)、服務諸多方面,只要其中一項是短板,這個應用就不可能普及。如果這個短板被克服,這個應用就會被某些隨機元素引爆。

現(xiàn)在,語音輸入的算法(深度學習)、網(wǎng)絡(4G)、數(shù)據(jù)(云計算)瓶頸均已被消除。羅永浩則是訊飛輸入法隨機的“引爆點”,其背后卻是訊飛輸入法們的多年努力,涉及到技術、產(chǎn)品諸多方面,甚至4G網(wǎng)絡的普及都是功不可沒的:離線語音識別效果很差,在線則要有4G或WIFI網(wǎng)絡才具可用性。

Gartner 在2012年曾做過一個總結,一個完整的技術成熟周期包括:

1、技術萌芽期(technology trigger)

2、期望膨脹期(Peak of Inflated Expectations)

3、泡沫化的谷底期 (Through of Disillusionment)

4、穩(wěn)步爬升的光明期 (Slope of Enlightement)

5、實質生產(chǎn)的高峰期 (Plateau of Productivity)

在那份報告中,其預測語音會在2-5年走向成熟。

現(xiàn)在看來,Gartner的預測是正確的。

面向語音的研究可以追溯到上個世界五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。在此后的幾十年間進展緩慢,技術水平、計算能力和應用場景,都不成熟。由于場景的局限性,語音技術在PC互聯(lián)網(wǎng)時代并未大幅普及。主要應用在一些垂直領域例如呼叫中心、教育、電信和金融等行業(yè),這段漫長的歷史應該是第1階段。

Siri面世之后,語音產(chǎn)業(yè)先后經(jīng)歷2、3階段。今天,語音已到第4階段、接近第5階段了。隨著Amazon Echo、Google Home、百度度秘、Siri以及訊飛輸入法的普及,通過語音與機器交互很快就會成為主流。

當然,我們與機器的交互方式從來不是單一的。今天蘋果在Siri、觸摸屏上發(fā)力的同時還在努力打造一個更好的利用手指交互的鍵盤:TouchBar。未來必然也是,不同的交互方式,適合不同的設備,不同的場景,甚至一個設備都需要多種交互,我們的手指、指紋、聲音、虹膜,能用到的都會用上。當然,一個大的方向是,我們與機器的交互將越來越自然,越來越簡單,越來越高效,正如馬云所言:未來機器不再是我們的工具,而是我們的伙伴。

訊飛輸入法今天才火起來,還有一個重要的原因,就是訊飛的低調。這家總部位于二線城市合肥的科技公司,缺少了一些互聯(lián)網(wǎng)范兒,正如其創(chuàng)始人劉慶峰在2013年所言:

從訊飛的移動互聯(lián)網(wǎng)的戰(zhàn)略中,我們也在不斷的反思,我們跟那些小的互聯(lián)網(wǎng)廠商比,或者跟更大的互聯(lián)網(wǎng)廠商比,都顯得我們的效益比他們高,真的不是我們做事速度沒他們快,而是沒他們那么會宣傳,沒他們會運作,當然在這個產(chǎn)品的迭代和推動中我們也還有很多要改善的地方。

所以盡管訊飛輸入法已經(jīng)坐擁3億用戶,在行業(yè)里面卻沒有形成很大的影響力,互聯(lián)網(wǎng)圈許多人都不知道,說到語音依然可能會聯(lián)想到Siri、百度甚至搜狗,而不是訊飛。不知道接下來,這家公司會不會有所改變?

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2016-11-03
為什么很牛的訊飛輸入法今天才火,還得靠羅永浩?
看上去,訊飛輸入法團隊過去幾年折騰的效果,還不如老羅三小時發(fā)布會上的賣力推介。要知道,這款輸入法最早的版本可追溯到2010年10月。

長按掃碼 閱讀全文