7月9日消息,智能語(yǔ)音技術(shù)作為人工智能技術(shù)的一個(gè)重要分支,在國(guó)內(nèi)已經(jīng)有了諸多落地應(yīng)用,從智能音響、智能翻譯機(jī),到智能客服,都有智能語(yǔ)音技術(shù)的身影。然而,也有大量國(guó)內(nèi)智能語(yǔ)言技術(shù)企業(yè)面臨著同質(zhì)化競(jìng)爭(zhēng)、看不清商業(yè)化落地方向等困擾。
近日,在搜狐科技主辦的《中國(guó)創(chuàng)新公司100》沙龍活動(dòng)第二期中,清華大學(xué)人工智能研究院聽覺智能研究中心主任鄭方教授、聲智科技聯(lián)合創(chuàng)始人&首席知識(shí)官常樂、科大訊飛AI研究院副院長(zhǎng)陳志剛等技術(shù)專家和行業(yè)頭部企業(yè)代表,圍繞《從聽懂到讀懂,智能語(yǔ)音商業(yè)化如何破局?》主題,就智能語(yǔ)音技術(shù)的發(fā)展趨勢(shì)、智能語(yǔ)音商業(yè)化落地等話題進(jìn)行了深入探討和分享。
這里,TechWeb對(duì)訪談內(nèi)容做了摘編。
智能語(yǔ)音技術(shù)趨勢(shì)
主持人:智能語(yǔ)音處在什么樣的發(fā)展階段?多模態(tài)技術(shù)融合是趨勢(shì)嗎?
鄭方:語(yǔ)音處理技術(shù)包含了很多分支,它是非常豐富的,比如語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別技術(shù)、情感識(shí)別技術(shù),包括信號(hào)的分類技術(shù)等等很多。這里面不同的技術(shù)處于不同的發(fā)展階段,成熟度不一樣。以聲紋識(shí)別為例,長(zhǎng)語(yǔ)音比較成熟,短語(yǔ)音不成熟;聲紋確認(rèn)比較成熟,聲紋辨認(rèn)不夠成熟等等。
對(duì)于相對(duì)已經(jīng)成熟的分支存在一個(gè)問題,就是同質(zhì)化比較嚴(yán)重。從技術(shù)看,是方法同質(zhì)化,從市場(chǎng)來看,是帶來惡性競(jìng)爭(zhēng),這在中國(guó)的語(yǔ)音界是存在的,而且還在某種程度上有一定的嚴(yán)重性。
智能語(yǔ)音技術(shù)落地對(duì)市場(chǎng)需求的認(rèn)知和理解非常關(guān)鍵,用單一技術(shù)解決問題有很大的難度,這個(gè)也是一些AI公司面臨困境非常重要的原因。不同的問題可能需要用不同的技術(shù)綜合來解決,多技術(shù)融合應(yīng)該是“能解決問題的融合”,不能做成“為融合而融合”。
陳志剛:目前語(yǔ)音技術(shù)還有一些難啃的骨頭沒有解決,比如前端的聲學(xué)降噪算法,前端聲學(xué)信號(hào)處理算法,包括麥克風(fēng)陣列算法,包括對(duì)于角色進(jìn)行分離,包括后續(xù)也要做更多理解上面的算法。這些算法的突破都是解決當(dāng)前比較困難的語(yǔ)音問題的必由之路。
AI技術(shù)要落地一定會(huì)涉及到平臺(tái),也就是說用什么樣的載體,比如在什么樣的操作系統(tǒng)上,在什么樣的嵌入式硬件上面承載AI的能力,這些AI的能力在各種條件下跑得起來,服務(wù)更多的場(chǎng)景,這些是非常系統(tǒng)化的事情。很多落地的過程需要各個(gè)環(huán)節(jié)的密切配合,才可以把它的價(jià)值最大程度挖掘出來。人工智能企業(yè)研發(fā)智能硬件,或者跟操作系統(tǒng)更深入的融合,這樣會(huì)促進(jìn)產(chǎn)業(yè)之間加速發(fā)展,特別在當(dāng)前國(guó)際形勢(shì)下面,加大AI能力和操作系統(tǒng)這樣一些自主研發(fā)的投入,避免被國(guó)外卡脖子,這也是勢(shì)在必行的。
常樂:用戶對(duì)場(chǎng)景的需求遠(yuǎn)遠(yuǎn)不止是一個(gè)交互方式的改變,需要解決更多的問題,電瓶車進(jìn)電梯經(jīng)常引起火災(zāi),我們的語(yǔ)音交互技術(shù)是不是在這里發(fā)揮更大的價(jià)值?語(yǔ)音技術(shù)、圖象識(shí)別技術(shù)、大數(shù)據(jù)的技術(shù)都會(huì)融合到里面去,應(yīng)對(duì)整體的市場(chǎng)需求,技術(shù)一定會(huì)是融合的。而且是廣闊市場(chǎng)前景下進(jìn)行有效融合,只有這些技術(shù)融合到一起,才真正解決用戶的問題,對(duì)我們做技術(shù)的人來說絕對(duì)不是說研發(fā)技術(shù)來實(shí)現(xiàn)自嗨,這個(gè)技術(shù)有多么領(lǐng)先,而是希望這個(gè)技術(shù)可以切實(shí)解決所有用戶真實(shí)的痛點(diǎn)需求。
“技術(shù)、產(chǎn)品、服務(wù)、整體解決方案” 選擇那種商業(yè)化模式才算正確?
主持人:談到智能語(yǔ)音商業(yè)化的問題,涉及到商業(yè)模式的問題。對(duì)于智能語(yǔ)音企業(yè)來講怎么選擇適合自身的商業(yè)模式,從已有的四種模式來看,哪種才是智能語(yǔ)音企業(yè)未來跑得通,讓自己發(fā)展更好的模式?
鄭方:不好說哪種模式更好,模式的好壞我覺得有三方面的決定因素。
一個(gè)取決于市場(chǎng)的需求:市場(chǎng)的需求其實(shí)可以說用兩個(gè)點(diǎn)來表示,一個(gè)痛點(diǎn),一個(gè)癢點(diǎn)。它決定了供求關(guān)系,痛點(diǎn)當(dāng)然是解決基本的最受關(guān)注的問題,癢點(diǎn)就是它想要做一些突破創(chuàng)新的東西。這時(shí)候你比較容易做成你希望的模式。
第二,由技術(shù)來決定:你的技術(shù)是否成熟,技術(shù)是否具有一定的領(lǐng)先性,能夠真正解決問題,技術(shù)能不能解決實(shí)際問題,因此技術(shù)也是一個(gè)決定因素。
第三,由競(jìng)爭(zhēng)關(guān)系決定:提供相關(guān)的不管是技術(shù)、產(chǎn)品、解決方案或者服務(wù)的廠商,看它們的競(jìng)爭(zhēng)關(guān)系是什么樣的程度,有時(shí)候說得直白一點(diǎn),如果競(jìng)爭(zhēng)比較激烈的話,可能帶來相互的壓價(jià)或者惡性競(jìng)爭(zhēng),這時(shí)候可能有些你想做的模式做不到。
陳志剛:商業(yè)模式?jīng)]有絕對(duì)的好壞高低之分,適合公司發(fā)展的就是好的模式。每個(gè)公司不一定會(huì)一直沿用某一種商業(yè)模式,在不同的發(fā)展階段一定會(huì)有一個(gè)適合自己的商業(yè)模式或者商業(yè)模式的組合。
目前看來,國(guó)內(nèi)很多優(yōu)質(zhì)的AI產(chǎn)品或者解決方案或者技術(shù)提供商更容易打動(dòng)客戶的更多是真正懂行業(yè)懂用戶的企業(yè),他們能夠研發(fā)出來一些技術(shù)或者產(chǎn)品。這樣一些企業(yè)最終跑出來,贏得市場(chǎng)的認(rèn)可,這樣才是一個(gè)好的商業(yè)模式。對(duì)于訊飛來說,我們當(dāng)前階段也有提供技術(shù),用我們的開放平臺(tái)提供技術(shù)的能力,也提供服務(wù)的能力,包括我們也自己做一些解決方案,在醫(yī)療、教育行業(yè)做解決方案,同時(shí)我們做C端的智能硬件產(chǎn)品。
toC 還是 toB ?
主持人:智能語(yǔ)音商業(yè)化落地路徑無非兩個(gè),一個(gè)to C,一個(gè)to B,兩者分別如何去做好技術(shù)和需求的選擇和融合?
陳志剛:我覺得智能語(yǔ)音技術(shù)目前還只是一種技術(shù),在to C領(lǐng)域一定要有和海量用戶的常態(tài)性需求要緊密關(guān)聯(lián)起來,才能夠把這個(gè)技術(shù)應(yīng)用到用戶的需求當(dāng)中去才能發(fā)揮它真正的價(jià)值。我們有很多智能硬件的產(chǎn)品,比如市面上的智能音箱其實(shí)就是為了讓用戶更快地獲取歌曲的服務(wù),操控家居設(shè)備,讓用戶有一種便捷的入口方式。
目前各種各樣的互聯(lián)網(wǎng)服務(wù),包括音視頻服務(wù)、信息流服務(wù)、智能家居生態(tài)等,基本被我們所知的很多巨頭所壟斷。其它的硬件廠商想要活下來,我覺得就兩種可能的模式,一種選擇加入巨頭的生態(tài),利用這些服務(wù)以及生態(tài)環(huán)境去打磨我們的產(chǎn)品,極致打磨,真正挖掘用戶剛需的需求,能夠取得一些先發(fā)優(yōu)勢(shì),積累大量的用戶。這是一種模式。
第二種模式,利用核心技術(shù),做自己的技術(shù)以及產(chǎn)品的創(chuàng)新。這種創(chuàng)新相對(duì)來說有一定的難度,一般情況下如果簡(jiǎn)單的創(chuàng)新其實(shí)非常容易被復(fù)制,它有一定的顛覆性和開創(chuàng)性,同時(shí)要有一定的技術(shù)壁壘。比如開創(chuàng)新的硬件品類,通過這個(gè)過程深入挖掘用戶的需求,利用AI技術(shù)解決用戶實(shí)際的需求,訊飛也做過一系列目前還是受到好評(píng)的智能硬件產(chǎn)品,比如錄音筆、智能翻譯設(shè)備等。這些需求都是在實(shí)際過程當(dāng)中真實(shí)海量用戶的剛需需求,只有通過這些需求的不斷挖掘和真正的極致打磨,把核心技術(shù)效果以及這款產(chǎn)品在實(shí)際應(yīng)用過程當(dāng)中的易用性各方面提升上去,這樣才能夠打造出來一些真正有開創(chuàng)性的新的硬件品類,這種方式下也是比較好的在這種背景下面新的商業(yè)化模式。
常樂:在to B領(lǐng)域,語(yǔ)音技術(shù)的應(yīng)用前景非常廣闊。比如聲智科技目前在做的to B領(lǐng)域健康醫(yī)療大的領(lǐng)域,其實(shí)這也是一個(gè)大的語(yǔ)音賽道。我們現(xiàn)在在做的一些應(yīng)對(duì)銀發(fā)經(jīng)濟(jì)慢病和醫(yī)療管理的場(chǎng)景當(dāng)中,其實(shí)語(yǔ)音都在其中發(fā)揮重要的價(jià)值。對(duì)于to B領(lǐng)域來說,C端領(lǐng)域大家每天和它交互,可能感受更深一點(diǎn),其實(shí)在to B領(lǐng)域當(dāng)中相信聲學(xué)和人工智能和語(yǔ)音可能走得會(huì)比C端更超前。
另外,B端是很巨大的市場(chǎng),無論是工業(yè)互聯(lián)網(wǎng)還是新基建,很多基礎(chǔ)設(shè)施項(xiàng)目中語(yǔ)音都起到非常重要的作用 。智慧醫(yī)療的方向,大家可以看到現(xiàn)在醫(yī)院里面的掛號(hào)預(yù)約這些信息平臺(tái),到后來我們家里面的數(shù)字化醫(yī)院,整個(gè)數(shù)字化經(jīng)濟(jì)構(gòu)建其實(shí)除了我們說的計(jì)算機(jī)學(xué)科在其中起了巨大的價(jià)值,語(yǔ)音在背后也有著巨大的貢獻(xiàn)值。在工廠里面自動(dòng)化集成或者醫(yī)院里面很多數(shù)字化應(yīng)用包括流調(diào)、信息所有的工作,這些技術(shù)都是在其中起著非常重要的一環(huán),雖然不是主角,可能是一個(gè)配角,但是是這個(gè)鏈條當(dāng)中不可或缺的一環(huán)。
整個(gè)to B市場(chǎng)孕育著to C看不到的價(jià)值,在很多to B領(lǐng)域當(dāng)中對(duì)于國(guó)民的生產(chǎn)總值或者對(duì)我們整個(gè)社會(huì)的變革能取得巨大的作用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )