從虛擬主播、錄音筆到AI同傳,搜狗這家公司落地了各種各樣的AI應(yīng)用,并且直接讓用戶有所感知。
這些看起來神奇的應(yīng)用背后,搜狗是怎么想的、又是怎么做的呢?
在MEET 2020智能未來大會上,搜狗AI交互事業(yè)部總經(jīng)理王硯峰,分享了搜狗的技術(shù)路線圖與AI實踐。
我們根據(jù)其演講速記,整理了核心觀點,希望從搜狗的AI落地實踐中,你也能看見AI落地過程中的新價值、新邊界和新格局。
關(guān)于MEET2020智能未來大會:量子位主辦,現(xiàn)場20多位行業(yè)大咖分享,1000多名行業(yè)觀眾參與,線上有近百萬從業(yè)者通過直播參與觀看和互動,包括新華社在內(nèi)的數(shù)十家主流媒體報道,活動整體線上總曝光量超過千萬。
要點
1.當(dāng)傳統(tǒng)行業(yè)面臨增長瓶頸,通過AI賦能可以帶來生產(chǎn)力變革和突破,最終轉(zhuǎn)化成行業(yè)價值和用戶價值。
2.硬件有兩個發(fā)展趨勢,一方面朝著更便攜的方式發(fā)展,另一方面硬件的IO更加智能。
3.以語言作為核心,左邊是自然交互,右邊是知識計算,在自然交互中做語音、圖像,在知識計算當(dāng)中做問答、翻譯、對話,這就是整個搜狗的AI技術(shù)體系。
4.AI同傳現(xiàn)已不再翻車,雖然趕不上頂級人類同傳,但能服務(wù)更多場合。
5.針對用戶的問題,機(jī)器實時請求全網(wǎng)的結(jié)果,整理之后再來回答,這一定是未來搜索的形態(tài)。
王硯峰演講分享全文
注:量子位在不改變原意的基礎(chǔ)上進(jìn)行了編輯整理
各位現(xiàn)場的媒體和行業(yè)朋友,大家下午好?,F(xiàn)在由我來給大家分享一下搜狗在2019年AI方面從產(chǎn)品到技術(shù)的思考,以及我們所做的突破。
從錄音筆看AI硬件趨勢
搜狗錄音筆,是我們?nèi)ツ?月份發(fā)布的一款產(chǎn)品,這款產(chǎn)品從3月份發(fā)布至今,線上平臺不管是單品銷量還是銷售額都是第一名。很多的媒體朋友都跟我說,現(xiàn)在他們已經(jīng)標(biāo)配了搜狗錄音筆,如果缺少了這個工具,記錄和寫作的效率就會受到影響。
隨著手機(jī)行業(yè)的興起,錄音筆行業(yè)是在慢慢萎縮的,每年都是下降的趨勢,右圖的黑線是去年電商訪客數(shù)據(jù)。但是搜狗錄音筆上線后,錄音筆的搜索量反而增長了。
這就說明,當(dāng)我們面向一個產(chǎn)生增長瓶頸的傳統(tǒng)行業(yè)的時候,AI技術(shù)可以賦能到傳統(tǒng)行業(yè),帶來生產(chǎn)力的變革和突破,最終轉(zhuǎn)化成行業(yè)價值和用戶價值。
而且,搜狗錄音筆在京東已經(jīng)有很不錯的好評和復(fù)購率了。當(dāng)一個硬件產(chǎn)品在像京東這樣的平臺上產(chǎn)生比較不錯的復(fù)購率的時候,能在一定程度上代表這個產(chǎn)品在整個網(wǎng)民、用戶群體和行業(yè)內(nèi)的口碑。
我們不僅自己做了一個產(chǎn)品,還希望能夠把我們的能力賦能到錄音筆行業(yè)當(dāng)中,幫助整個行業(yè)一起往前走。
今年8月份,我們連同索尼錄音筆、愛國者、紐曼等品牌,成立了一個AI創(chuàng)新聯(lián)盟,把我們的AI能力提供給錄音筆廠商,實現(xiàn)他們產(chǎn)品的AI化,包括幫他們實現(xiàn)好的用戶體驗和增值服務(wù)。
現(xiàn)在大家看到的一些新的愛國者錄音筆、索尼錄音筆,出廠的時候會標(biāo)配搜狗聽寫服務(wù),這個服務(wù)就是搜狗從技術(shù)到產(chǎn)品方面的AI沉淀。
搜狗為什么要做AI錄音筆這個產(chǎn)品呢?這后面其實是我們對于整個AI硬件的思考。
硬件大概有兩個發(fā)展趨勢,第一個發(fā)展趨勢就是朝著更便攜的方式發(fā)展。以前說硬件是電腦,后來有了Pad,后來有了手機(jī)、手表、耳機(jī),向著越來越便攜、靈活的方式發(fā)展。
另外一個發(fā)展趨勢就是硬件的IO更加智能。以前我們最早用電腦的時候,只能用鍵盤和鼠標(biāo);而現(xiàn)在用手機(jī)的時候,很多時候就已經(jīng)在用語音了。
而且不管是錄音筆還是耳機(jī),未來的交互方式更多都是語音,所以本身它會朝著更IO的方向發(fā)展,尤其未來它會接管人的感官,甚至有一些生理入侵。其實已經(jīng)有一些行業(yè)大咖身體里植入了一些芯片,讓芯片給他更好的賦能。
總結(jié)下來,其實我們搜狗做AI硬件的定位是三點:
第一點,我們希望我們的AI硬件賦能于人,能夠去提升人的能力,提升人的效率,提升人能力的邊界。
第二點,我們希望我們的AI硬件做得更便捷、小巧,方便每個人攜帶,而不是做一個在家里的音箱、電視,這不是搜狗AI的發(fā)展方向。
第三點,我們的AI硬件以語言為產(chǎn)品的核心,我們希望通過AI的能力在語言方面對用戶、對網(wǎng)民做全方位的賦能。
搜狗AI技術(shù)體系
怎么解讀語言AI這件事呢?首先大家應(yīng)該都會了解語言其實是人跟人之間溝通的載體,是知識承載的載體,是信息承載的載體,所以語言在社會的核心當(dāng)中起到了絕對重要的作用,是信息的推動者,信息的發(fā)展者。人類社會自從有了語言,就發(fā)生了巨大的變革。
所以,語言是人工智能的一顆明珠,我們一直把語言當(dāng)成我們最核心的AI發(fā)展方向和突破點。我們解決了視覺問題、解決了語音問題,但是圍繞著語言,包括今天NLP的問題仍然沒有得到突破,所以我們希望能夠圍繞語言去盡快推動產(chǎn)品的突破,推動技術(shù)的進(jìn)步,所以搜狗斷言,我們希望能夠在語言方面做一個行業(yè)的創(chuàng)新者,去做AI語言技術(shù)行業(yè)的引領(lǐng)者。
我們做AI的時候,為什么以語言為核心呢?因為輸入法和搜索這兩個搜狗的傳統(tǒng)產(chǎn)品,其實都是圍繞自然語言,輸入法是為了讓用戶有更好的詞庫、更好的自動輸入的能力,讓大家的打字效率得到提升。搜索就是圍繞語言這件事做更好的信息獲取。
所以這是套以語言為核心的AI體系。
在這個AI體系下,我們分成了兩個方向,一個是自然交互,自然交互解決的是人與機(jī)器之間的溝通能力;另一個是知識計算,知識計算解決的是,我怎么通過語言的能力從大量的信息當(dāng)中做知識的挖掘、做對話、做問答。
最終會形成兩條產(chǎn)品線,第一條產(chǎn)品線就是AI硬件,圍繞自然交互和語言為核心,做各種硬件形態(tài)的探索。第二條產(chǎn)品線,我們會圍繞知識計算做各種垂直問答,比如搜狗明醫(yī),未來搜狗搜索也會提升知識服務(wù)能力。
所以最終這兩件事串起來就是智能助理。搜狗希望以語言AI為核心,做用戶在各個場景下的智能助理,比如翻譯是出國場景下的助理,錄音筆是記錄信息場景下的助理,而問答是獲取信息場景下的助理。
我們希望做到語言AI技術(shù)的引領(lǐng)者和創(chuàng)新者。以語言作為核心,左邊是自然交互,右邊是知識計算,在自然交互中做語音、圖像,在知識計算當(dāng)中做問答、翻譯、對話,這就是整個搜狗的AI技術(shù)體系。
搜狗的語音識別
除了錄音筆,搜狗目前在技術(shù)跟產(chǎn)品上還有很多值得驕傲的點。
第一,就是語音識別。搜狗在語音識別方面是相對做得比較早的,搜狗輸入法今年單日語音輸入調(diào)用次數(shù)峰值超過了8億次,是目前規(guī)模最大的語音輸入法。
但是光有語音輸入,我們覺得不夠,因為語音輸入的場景是人朝著機(jī)器去說一段信息,然后機(jī)器把信息變成文字發(fā)送給對方。而在錄音筆的場景下是語音的記錄,而且記錄過程中僅有輸入這么簡單的一件事。
像大家經(jīng)常面臨的中英文混合的問題,我們已經(jīng)解決了。除了單純的語音識別,我們先做了說話人的識別,讓機(jī)器區(qū)分這句話是誰說的,這在錄音筆場景下是非常關(guān)鍵的能力。同時很多場景中都有一些噪音,我們今年做了一件事,不止用陣列,而是用深度學(xué)習(xí)來降噪,把人的聲音跟背景音做效果很好的切分。
采訪中有很多背景噪聲和其他人的聲音,所以我們聽采訪的時候聽不清楚。我們提出了ClairVoice降噪算法,通過這個算法的過濾,噪聲去掉了,原本的聲音變得清晰了。大家看電視新聞的時候也會感覺到,很多記者采訪的場景是噪聲很大的,比如大風(fēng)天氣的室外、飛機(jī)場等,通過AI降噪技術(shù),觀眾其實已經(jīng)聽不到噪聲了。
搜狗的語音合成
語音合成方面,隨著我們在深度學(xué)習(xí)上的努力,通過我們國際領(lǐng)先的基于WaveNet、WaveRNN的語音合成技術(shù),我們可以做到更好的效果。
我們用羅輯思維錄音做了語音合成。對比以前的語音合成,這種語音合成的效果已經(jīng)更接近本人了,它已經(jīng)可以在很多場景下使用了。
但是我們會覺得光有語音合成不夠,因為語音合成目前仍然做不到情感豐富、抑揚頓挫。
所以我們做了一個技術(shù)叫語音變聲,比如要給一個大IP、名人做合成,我們把這個大IP的聲音采集下來建立一個模型,形成一個聲音的皮膚,背后會有一個音頻的表演者,這個表演者是帶有感情的,是抑揚頓挫的,然后我們把這個大IP的聲音皮膚貼到這段音頻上,就能讓這個大IP的聲音開始情感豐富的說話。
語音變聲會有很多應(yīng)用場景,比如很多父母自己沒有時間給家里的小孩講故事,我們就希望能夠把父母的聲音皮膚刻畫出來,未來他的聲音皮膚直接貼到“凱叔講故事”的音頻上,就能夠?qū)崿F(xiàn)用爸爸媽媽的聲音很有情感的給小朋友講一段故事。
比如,我們把凱叔的聲音,用王小川14分鐘的語音數(shù)據(jù)做了訓(xùn)練,形成了這樣一個“作品”其實小川平時講故事的情感肯定不像機(jī)器合成出來的這么飽滿,包括這14分鐘的語音數(shù)據(jù)聽起來非常的平,因此我們在這個場景下會對父母們有很大的幫助。
我們前段時間做了一個里程碑式的嘗試。
此前,語音合成一向很難放到付費音頻的領(lǐng)域來使用,因為付費音頻聽眾對音頻質(zhì)量有要求,其實是一個音頻表演,交付的是一個音頻內(nèi)容,聽眾要為這件事買單,所以目前所有的付費平臺都不敢用機(jī)器合成的方式進(jìn)行付費音頻的生產(chǎn)。
就在前段時間我們在得到平臺上跟梁寧合作,用轉(zhuǎn)述師的聲音套上梁寧的聲音皮膚來合成音頻。
這樣出來的效果既保留了表演的部分,同時還帶了梁寧的音色和發(fā)音習(xí)慣,這種方法解決了很多大咖、IP音頻生產(chǎn)中的痛點,也是全球第一次在付費音頻領(lǐng)域做語音合成的嘗試。之后我們會和更多的IP合作,也會看到更多這樣的內(nèi)容。
搜狗分身
同時,我們覺得有語言不夠,因為未來人機(jī)交互的界面一定有語音又有視頻,所以我們做了分身技術(shù),去年年底,我們聯(lián)合新華社推出了AI合成主播,為了讓虛擬分身的效果變得更加逼真,到現(xiàn)在為止我們經(jīng)歷了四代技術(shù)演變。
今年年初的時候,虛擬主播的面部表情和動作還是相對比較僵硬的,后來我們做的效果就非常的逼真了,如果我不說這是機(jī)器合成的話,可能很多朋友分辨不出來這個到底是機(jī)器做的還是真人。
我們發(fā)布了第四代合成分身技術(shù)以后,還可以做更多語種,比如我們做了第一個俄語的合成主播。
另外,這項技術(shù)也在很多的行業(yè)落地,比如說我們幫平安做了AI客服。
因為平安有一個需求,在做貸款審核的時候需要一個面對面的客服來進(jìn)行審核,這個過程是通過網(wǎng)絡(luò)完成的。所以我們幫平安做了一個虛擬客服的形象,這個客服早就已經(jīng)上崗了。
目前,我們的AI合成主播在互聯(lián)網(wǎng)法院、新華社、央視,包括在平安已經(jīng)產(chǎn)生了實際的應(yīng)用。
搜狗AI翻譯
搜狗為什么做翻譯?
因為搜狗在做輸入法、做搜索的時候,會遇到跨語言信息表達(dá)和獲取的問題。
現(xiàn)在,華語是全球第一大語言,剩下的語言使用人數(shù)相對比例更少、有更長尾的分布,語言的不同會讓信息和文化的交流產(chǎn)生隔閡。所以我們希望搜狗能通過一個好的翻譯能力,幫助用戶做更好的信息交流和內(nèi)容獲取。
我們的翻譯到目前為止取得了好幾次行業(yè)內(nèi)的突破。
首先,在2016年11月份,第三次烏鎮(zhèn)互聯(lián)網(wǎng)大會上,我們首發(fā)了搜狗同傳,這也是世界上第一次把機(jī)器同傳用到了真實的場景下,并且替代人工同傳。
不久后,我們又在2017年1月份上線了英文搜索,其實是國內(nèi)首個跨語言檢索的搜索引擎,大家搜中文就可以得到英文的內(nèi)容,還可以幫大家翻譯成中文的結(jié)果,尤其是在學(xué)術(shù)、醫(yī)療的領(lǐng)域,很多優(yōu)質(zhì)資源都在外網(wǎng),會對大家有很大的幫助。
同年10月份,我們又發(fā)布了搜狗AI翻譯機(jī),也是同類產(chǎn)品中首個能夠離線翻譯的。因為我們出國經(jīng)常碰到?jīng)]有網(wǎng)絡(luò)的情況,我們是首個能夠把離線翻譯做到實用級水平的。
后來我們又在2018年的時候推出了英文到中文的翻譯,因為當(dāng)時國內(nèi)做同傳都是中文到英文,但實際上在座的各位看一個中文演講者的時候,其實不需要翻譯內(nèi)容,更多的是對英文的翻譯。所以我們從更落地、更實用的方向,做了國內(nèi)第一個從英文到中文的同傳。
目前為止,我們在翻譯上,尤其是同傳上取得了相對很實用的效果。比如說今年我們支持了大概100場跨語言的會議,像蘋果的發(fā)布會,我們直接給幾個網(wǎng)站加了同傳進(jìn)行直播。
其實一年前,大家在很多活動現(xiàn)場看到的AI同傳會變成車禍現(xiàn)場,也有一些翻譯效果很不好的情況。但現(xiàn)在,大家看到這個翻譯的時候,AI同傳已經(jīng)真的開始進(jìn)入到可用的地步了。
當(dāng)然我們現(xiàn)在的效果還沒法跟頂級的人類同傳相比,但是我們會用在更多的場合,因為很多場合是沒有好的人類同傳資源的,但是有了機(jī)器同傳,就會有更好的現(xiàn)場部署,幫助與會者完成信息的交流。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )