7月9日消息,智能語音技術(shù)作為人工智能技術(shù)的一個重要分支,在國內(nèi)已經(jīng)有了諸多落地應(yīng)用,從智能音響、智能翻譯機,到智能客服,都有智能語音技術(shù)的身影。然而,也有大量國內(nèi)智能語言技術(shù)企業(yè)面臨著同質(zhì)化競爭、看不清商業(yè)化落地方向等困擾。
近日,在搜狐科技主辦的《中國創(chuàng)新公司100》沙龍活動第二期中,清華大學(xué)人工智能研究院聽覺智能研究中心主任鄭方教授、聲智科技聯(lián)合創(chuàng)始人&首席知識官常樂、科大訊飛AI研究院副院長陳志剛等技術(shù)專家和行業(yè)頭部企業(yè)代表,圍繞《從聽懂到讀懂,智能語音商業(yè)化如何破局?》主題,就智能語音技術(shù)的發(fā)展趨勢、智能語音商業(yè)化落地等話題進行了深入探討和分享。
這里,TechWeb對訪談內(nèi)容做了摘編。
智能語音技術(shù)趨勢
主持人:智能語音處在什么樣的發(fā)展階段?多模態(tài)技術(shù)融合是趨勢嗎?
鄭方:語音處理技術(shù)包含了很多分支,它是非常豐富的,比如語音識別、語音合成、聲紋識別技術(shù)、情感識別技術(shù),包括信號的分類技術(shù)等等很多。這里面不同的技術(shù)處于不同的發(fā)展階段,成熟度不一樣。以聲紋識別為例,長語音比較成熟,短語音不成熟;聲紋確認比較成熟,聲紋辨認不夠成熟等等。
對于相對已經(jīng)成熟的分支存在一個問題,就是同質(zhì)化比較嚴重。從技術(shù)看,是方法同質(zhì)化,從市場來看,是帶來惡性競爭,這在中國的語音界是存在的,而且還在某種程度上有一定的嚴重性。
智能語音技術(shù)落地對市場需求的認知和理解非常關(guān)鍵,用單一技術(shù)解決問題有很大的難度,這個也是一些AI公司面臨困境非常重要的原因。不同的問題可能需要用不同的技術(shù)綜合來解決,多技術(shù)融合應(yīng)該是“能解決問題的融合”,不能做成“為融合而融合”。
陳志剛:目前語音技術(shù)還有一些難啃的骨頭沒有解決,比如前端的聲學(xué)降噪算法,前端聲學(xué)信號處理算法,包括麥克風(fēng)陣列算法,包括對于角色進行分離,包括后續(xù)也要做更多理解上面的算法。這些算法的突破都是解決當(dāng)前比較困難的語音問題的必由之路。
AI技術(shù)要落地一定會涉及到平臺,也就是說用什么樣的載體,比如在什么樣的操作系統(tǒng)上,在什么樣的嵌入式硬件上面承載AI的能力,這些AI的能力在各種條件下跑得起來,服務(wù)更多的場景,這些是非常系統(tǒng)化的事情。很多落地的過程需要各個環(huán)節(jié)的密切配合,才可以把它的價值最大程度挖掘出來。人工智能企業(yè)研發(fā)智能硬件,或者跟操作系統(tǒng)更深入的融合,這樣會促進產(chǎn)業(yè)之間加速發(fā)展,特別在當(dāng)前國際形勢下面,加大AI能力和操作系統(tǒng)這樣一些自主研發(fā)的投入,避免被國外卡脖子,這也是勢在必行的。
常樂:用戶對場景的需求遠遠不止是一個交互方式的改變,需要解決更多的問題,電瓶車進電梯經(jīng)常引起火災(zāi),我們的語音交互技術(shù)是不是在這里發(fā)揮更大的價值?語音技術(shù)、圖象識別技術(shù)、大數(shù)據(jù)的技術(shù)都會融合到里面去,應(yīng)對整體的市場需求,技術(shù)一定會是融合的。而且是廣闊市場前景下進行有效融合,只有這些技術(shù)融合到一起,才真正解決用戶的問題,對我們做技術(shù)的人來說絕對不是說研發(fā)技術(shù)來實現(xiàn)自嗨,這個技術(shù)有多么領(lǐng)先,而是希望這個技術(shù)可以切實解決所有用戶真實的痛點需求。
“技術(shù)、產(chǎn)品、服務(wù)、整體解決方案” 選擇那種商業(yè)化模式才算正確?
主持人:談到智能語音商業(yè)化的問題,涉及到商業(yè)模式的問題。對于智能語音企業(yè)來講怎么選擇適合自身的商業(yè)模式,從已有的四種模式來看,哪種才是智能語音企業(yè)未來跑得通,讓自己發(fā)展更好的模式?
鄭方:不好說哪種模式更好,模式的好壞我覺得有三方面的決定因素。
一個取決于市場的需求:市場的需求其實可以說用兩個點來表示,一個痛點,一個癢點。它決定了供求關(guān)系,痛點當(dāng)然是解決基本的最受關(guān)注的問題,癢點就是它想要做一些突破創(chuàng)新的東西。這時候你比較容易做成你希望的模式。
第二,由技術(shù)來決定:你的技術(shù)是否成熟,技術(shù)是否具有一定的領(lǐng)先性,能夠真正解決問題,技術(shù)能不能解決實際問題,因此技術(shù)也是一個決定因素。
第三,由競爭關(guān)系決定:提供相關(guān)的不管是技術(shù)、產(chǎn)品、解決方案或者服務(wù)的廠商,看它們的競爭關(guān)系是什么樣的程度,有時候說得直白一點,如果競爭比較激烈的話,可能帶來相互的壓價或者惡性競爭,這時候可能有些你想做的模式做不到。
陳志剛:商業(yè)模式?jīng)]有絕對的好壞高低之分,適合公司發(fā)展的就是好的模式。每個公司不一定會一直沿用某一種商業(yè)模式,在不同的發(fā)展階段一定會有一個適合自己的商業(yè)模式或者商業(yè)模式的組合。
目前看來,國內(nèi)很多優(yōu)質(zhì)的AI產(chǎn)品或者解決方案或者技術(shù)提供商更容易打動客戶的更多是真正懂行業(yè)懂用戶的企業(yè),他們能夠研發(fā)出來一些技術(shù)或者產(chǎn)品。這樣一些企業(yè)最終跑出來,贏得市場的認可,這樣才是一個好的商業(yè)模式。對于訊飛來說,我們當(dāng)前階段也有提供技術(shù),用我們的開放平臺提供技術(shù)的能力,也提供服務(wù)的能力,包括我們也自己做一些解決方案,在醫(yī)療、教育行業(yè)做解決方案,同時我們做C端的智能硬件產(chǎn)品。
toC 還是 toB ?
主持人:智能語音商業(yè)化落地路徑無非兩個,一個to C,一個to B,兩者分別如何去做好技術(shù)和需求的選擇和融合?
陳志剛:我覺得智能語音技術(shù)目前還只是一種技術(shù),在to C領(lǐng)域一定要有和海量用戶的常態(tài)性需求要緊密關(guān)聯(lián)起來,才能夠把這個技術(shù)應(yīng)用到用戶的需求當(dāng)中去才能發(fā)揮它真正的價值。我們有很多智能硬件的產(chǎn)品,比如市面上的智能音箱其實就是為了讓用戶更快地獲取歌曲的服務(wù),操控家居設(shè)備,讓用戶有一種便捷的入口方式。
目前各種各樣的互聯(lián)網(wǎng)服務(wù),包括音視頻服務(wù)、信息流服務(wù)、智能家居生態(tài)等,基本被我們所知的很多巨頭所壟斷。其它的硬件廠商想要活下來,我覺得就兩種可能的模式,一種選擇加入巨頭的生態(tài),利用這些服務(wù)以及生態(tài)環(huán)境去打磨我們的產(chǎn)品,極致打磨,真正挖掘用戶剛需的需求,能夠取得一些先發(fā)優(yōu)勢,積累大量的用戶。這是一種模式。
第二種模式,利用核心技術(shù),做自己的技術(shù)以及產(chǎn)品的創(chuàng)新。這種創(chuàng)新相對來說有一定的難度,一般情況下如果簡單的創(chuàng)新其實非常容易被復(fù)制,它有一定的顛覆性和開創(chuàng)性,同時要有一定的技術(shù)壁壘。比如開創(chuàng)新的硬件品類,通過這個過程深入挖掘用戶的需求,利用AI技術(shù)解決用戶實際的需求,訊飛也做過一系列目前還是受到好評的智能硬件產(chǎn)品,比如錄音筆、智能翻譯設(shè)備等。這些需求都是在實際過程當(dāng)中真實海量用戶的剛需需求,只有通過這些需求的不斷挖掘和真正的極致打磨,把核心技術(shù)效果以及這款產(chǎn)品在實際應(yīng)用過程當(dāng)中的易用性各方面提升上去,這樣才能夠打造出來一些真正有開創(chuàng)性的新的硬件品類,這種方式下也是比較好的在這種背景下面新的商業(yè)化模式。
常樂:在to B領(lǐng)域,語音技術(shù)的應(yīng)用前景非常廣闊。比如聲智科技目前在做的to B領(lǐng)域健康醫(yī)療大的領(lǐng)域,其實這也是一個大的語音賽道。我們現(xiàn)在在做的一些應(yīng)對銀發(fā)經(jīng)濟慢病和醫(yī)療管理的場景當(dāng)中,其實語音都在其中發(fā)揮重要的價值。對于to B領(lǐng)域來說,C端領(lǐng)域大家每天和它交互,可能感受更深一點,其實在to B領(lǐng)域當(dāng)中相信聲學(xué)和人工智能和語音可能走得會比C端更超前。
另外,B端是很巨大的市場,無論是工業(yè)互聯(lián)網(wǎng)還是新基建,很多基礎(chǔ)設(shè)施項目中語音都起到非常重要的作用 。智慧醫(yī)療的方向,大家可以看到現(xiàn)在醫(yī)院里面的掛號預(yù)約這些信息平臺,到后來我們家里面的數(shù)字化醫(yī)院,整個數(shù)字化經(jīng)濟構(gòu)建其實除了我們說的計算機學(xué)科在其中起了巨大的價值,語音在背后也有著巨大的貢獻值。在工廠里面自動化集成或者醫(yī)院里面很多數(shù)字化應(yīng)用包括流調(diào)、信息所有的工作,這些技術(shù)都是在其中起著非常重要的一環(huán),雖然不是主角,可能是一個配角,但是是這個鏈條當(dāng)中不可或缺的一環(huán)。
整個to B市場孕育著to C看不到的價值,在很多to B領(lǐng)域當(dāng)中對于國民的生產(chǎn)總值或者對我們整個社會的變革能取得巨大的作用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )