123,123

從虛擬主播、錄音筆到AI同傳，搜狗這家公司落地了各種各樣的AI應(yīng)用，并且直接讓用戶有所感知。

這些看起來神奇的應(yīng)用背后，搜狗是怎么想的、又是怎么做的呢？

在MEET 2020智能未來大會上，搜狗AI交互事業(yè)部總經(jīng)理王硯峰，分享了搜狗的技術(shù)路線圖與AI實(shí)踐。

我們根據(jù)其演講速記，整理了核心觀點(diǎn)，希望從搜狗的AI落地實(shí)踐中，你也能看見AI落地過程中的新價值、新邊界和新格局。

關(guān)于MEET2020智能未來大會：量子位主辦，現(xiàn)場20多位行業(yè)大咖分享，1000多名行業(yè)觀眾參與，線上有近百萬從業(yè)者通過直播參與觀看和互動，包括新華社在內(nèi)的數(shù)十家主流媒體報(bào)道，活動整體線上總曝光量超過千萬。

要點(diǎn)

1.當(dāng)傳統(tǒng)行業(yè)面臨增長瓶頸，通過AI賦能可以帶來生產(chǎn)力變革和突破，最終轉(zhuǎn)化成行業(yè)價值和用戶價值。

2.硬件有兩個發(fā)展趨勢，一方面朝著更便攜的方式發(fā)展，另一方面硬件的IO更加智能。

3.以語言作為核心，左邊是自然交互，右邊是知識計(jì)算，在自然交互中做語音、圖像，在知識計(jì)算當(dāng)中做問答、翻譯、對話，這就是整個搜狗的AI技術(shù)體系。

4.AI同傳現(xiàn)已不再翻車，雖然趕不上頂級人類同傳，但能服務(wù)更多場合。

5.針對用戶的問題，機(jī)器實(shí)時請求全網(wǎng)的結(jié)果，整理之后再來回答，這一定是未來搜索的形態(tài)。

王硯峰演講分享全文

注：量子位在不改變原意的基礎(chǔ)上進(jìn)行了編輯整理

各位現(xiàn)場的媒體和行業(yè)朋友，大家下午好?，F(xiàn)在由我來給大家分享一下搜狗在2019年AI方面從產(chǎn)品到技術(shù)的思考，以及我們所做的突破。

從錄音筆看AI硬件趨勢

搜狗錄音筆，是我們?nèi)ツ?月份發(fā)布的一款產(chǎn)品，這款產(chǎn)品從3月份發(fā)布至今，線上平臺不管是單品銷量還是銷售額都是第一名。很多的媒體朋友都跟我說，現(xiàn)在他們已經(jīng)標(biāo)配了搜狗錄音筆，如果缺少了這個工具，記錄和寫作的效率就會受到影響。

隨著手機(jī)行業(yè)的興起，錄音筆行業(yè)是在慢慢萎縮的，每年都是下降的趨勢，右圖的黑線是去年電商訪客數(shù)據(jù)。但是搜狗錄音筆上線后，錄音筆的搜索量反而增長了。

這就說明，當(dāng)我們面向一個產(chǎn)生增長瓶頸的傳統(tǒng)行業(yè)的時候，AI技術(shù)可以賦能到傳統(tǒng)行業(yè)，帶來生產(chǎn)力的變革和突破，最終轉(zhuǎn)化成行業(yè)價值和用戶價值。

而且，搜狗錄音筆在京東已經(jīng)有很不錯的好評和復(fù)購率了。當(dāng)一個硬件產(chǎn)品在像京東這樣的平臺上產(chǎn)生比較不錯的復(fù)購率的時候，能在一定程度上代表這個產(chǎn)品在整個網(wǎng)民、用戶群體和行業(yè)內(nèi)的口碑。

我們不僅自己做了一個產(chǎn)品，還希望能夠把我們的能力賦能到錄音筆行業(yè)當(dāng)中，幫助整個行業(yè)一起往前走。

今年8月份，我們連同索尼錄音筆、愛國者、紐曼等品牌，成立了一個AI創(chuàng)新聯(lián)盟，把我們的AI能力提供給錄音筆廠商，實(shí)現(xiàn)他們產(chǎn)品的AI化，包括幫他們實(shí)現(xiàn)好的用戶體驗(yàn)和增值服務(wù)。

現(xiàn)在大家看到的一些新的愛國者錄音筆、索尼錄音筆，出廠的時候會標(biāo)配搜狗聽寫服務(wù)，這個服務(wù)就是搜狗從技術(shù)到產(chǎn)品方面的AI沉淀。

搜狗為什么要做AI錄音筆這個產(chǎn)品呢？這后面其實(shí)是我們對于整個AI硬件的思考。

硬件大概有兩個發(fā)展趨勢，第一個發(fā)展趨勢就是朝著更便攜的方式發(fā)展。以前說硬件是電腦，后來有了Pad，后來有了手機(jī)、手表、耳機(jī)，向著越來越便攜、靈活的方式發(fā)展。

另外一個發(fā)展趨勢就是硬件的IO更加智能。以前我們最早用電腦的時候，只能用鍵盤和鼠標(biāo)；而現(xiàn)在用手機(jī)的時候，很多時候就已經(jīng)在用語音了。

而且不管是錄音筆還是耳機(jī)，未來的交互方式更多都是語音，所以本身它會朝著更IO的方向發(fā)展，尤其未來它會接管人的感官，甚至有一些生理入侵。其實(shí)已經(jīng)有一些行業(yè)大咖身體里植入了一些芯片，讓芯片給他更好的賦能。

總結(jié)下來，其實(shí)我們搜狗做AI硬件的定位是三點(diǎn)：

第一點(diǎn)，我們希望我們的AI硬件賦能于人，能夠去提升人的能力，提升人的效率，提升人能力的邊界。

第二點(diǎn)，我們希望我們的AI硬件做得更便捷、小巧，方便每個人攜帶，而不是做一個在家里的音箱、電視，這不是搜狗AI的發(fā)展方向。

第三點(diǎn)，我們的AI硬件以語言為產(chǎn)品的核心，我們希望通過AI的能力在語言方面對用戶、對網(wǎng)民做全方位的賦能。

搜狗AI技術(shù)體系

怎么解讀語言AI這件事呢？首先大家應(yīng)該都會了解語言其實(shí)是人跟人之間溝通的載體，是知識承載的載體，是信息承載的載體，所以語言在社會的核心當(dāng)中起到了絕對重要的作用，是信息的推動者，信息的發(fā)展者。人類社會自從有了語言，就發(fā)生了巨大的變革。

所以，語言是人工智能的一顆明珠，我們一直把語言當(dāng)成我們最核心的AI發(fā)展方向和突破點(diǎn)。我們解決了視覺問題、解決了語音問題，但是圍繞著語言，包括今天NLP的問題仍然沒有得到突破，所以我們希望能夠圍繞語言去盡快推動產(chǎn)品的突破，推動技術(shù)的進(jìn)步，所以搜狗斷言，我們希望能夠在語言方面做一個行業(yè)的創(chuàng)新者，去做AI語言技術(shù)行業(yè)的引領(lǐng)者。

我們做AI的時候，為什么以語言為核心呢？因?yàn)檩斎敕ê退阉鬟@兩個搜狗的傳統(tǒng)產(chǎn)品，其實(shí)都是圍繞自然語言，輸入法是為了讓用戶有更好的詞庫、更好的自動輸入的能力，讓大家的打字效率得到提升。搜索就是圍繞語言這件事做更好的信息獲取。

所以這是套以語言為核心的AI體系。

在這個AI體系下，我們分成了兩個方向，一個是自然交互，自然交互解決的是人與機(jī)器之間的溝通能力；另一個是知識計(jì)算，知識計(jì)算解決的是，我怎么通過語言的能力從大量的信息當(dāng)中做知識的挖掘、做對話、做問答。

最終會形成兩條產(chǎn)品線，第一條產(chǎn)品線就是AI硬件，圍繞自然交互和語言為核心，做各種硬件形態(tài)的探索。第二條產(chǎn)品線，我們會圍繞知識計(jì)算做各種垂直問答，比如搜狗明醫(yī)，未來搜狗搜索也會提升知識服務(wù)能力。

所以最終這兩件事串起來就是智能助理。搜狗希望以語言AI為核心，做用戶在各個場景下的智能助理，比如翻譯是出國場景下的助理，錄音筆是記錄信息場景下的助理，而問答是獲取信息場景下的助理。

我們希望做到語言AI技術(shù)的引領(lǐng)者和創(chuàng)新者。以語言作為核心，左邊是自然交互，右邊是知識計(jì)算，在自然交互中做語音、圖像，在知識計(jì)算當(dāng)中做問答、翻譯、對話，這就是整個搜狗的AI技術(shù)體系。

搜狗的語音識別

除了錄音筆，搜狗目前在技術(shù)跟產(chǎn)品上還有很多值得驕傲的點(diǎn)。

第一，就是語音識別。搜狗在語音識別方面是相對做得比較早的，搜狗輸入法今年單日語音輸入調(diào)用次數(shù)峰值超過了8億次，是目前規(guī)模最大的語音輸入法。

但是光有語音輸入，我們覺得不夠，因?yàn)檎Z音輸入的場景是人朝著機(jī)器去說一段信息，然后機(jī)器把信息變成文字發(fā)送給對方。而在錄音筆的場景下是語音的記錄，而且記錄過程中僅有輸入這么簡單的一件事。

像大家經(jīng)常面臨的中英文混合的問題，我們已經(jīng)解決了。除了單純的語音識別，我們先做了說話人的識別，讓機(jī)器區(qū)分這句話是誰說的，這在錄音筆場景下是非常關(guān)鍵的能力。同時很多場景中都有一些噪音，我們今年做了一件事，不止用陣列，而是用深度學(xué)習(xí)來降噪，把人的聲音跟背景音做效果很好的切分。

采訪中有很多背景噪聲和其他人的聲音，所以我們聽采訪的時候聽不清楚。我們提出了ClairVoice降噪算法，通過這個算法的過濾，噪聲去掉了，原本的聲音變得清晰了。大家看電視新聞的時候也會感覺到，很多記者采訪的場景是噪聲很大的，比如大風(fēng)天氣的室外、飛機(jī)場等，通過AI降噪技術(shù)，觀眾其實(shí)已經(jīng)聽不到噪聲了。

搜狗的語音合成

語音合成方面，隨著我們在深度學(xué)習(xí)上的努力，通過我們國際領(lǐng)先的基于WaveNet、WaveRNN的語音合成技術(shù)，我們可以做到更好的效果。

我們用羅輯思維錄音做了語音合成。對比以前的語音合成，這種語音合成的效果已經(jīng)更接近本人了，它已經(jīng)可以在很多場景下使用了。

但是我們會覺得光有語音合成不夠，因?yàn)檎Z音合成目前仍然做不到情感豐富、抑揚(yáng)頓挫。

所以我們做了一個技術(shù)叫語音變聲，比如要給一個大IP、名人做合成，我們把這個大IP的聲音采集下來建立一個模型，形成一個聲音的皮膚，背后會有一個音頻的表演者，這個表演者是帶有感情的，是抑揚(yáng)頓挫的，然后我們把這個大IP的聲音皮膚貼到這段音頻上，就能讓這個大IP的聲音開始情感豐富的說話。

語音變聲會有很多應(yīng)用場景，比如很多父母自己沒有時間給家里的小孩講故事，我們就希望能夠把父母的聲音皮膚刻畫出來，未來他的聲音皮膚直接貼到“凱叔講故事”的音頻上，就能夠?qū)崿F(xiàn)用爸爸媽媽的聲音很有情感的給小朋友講一段故事。

比如，我們把凱叔的聲音，用王小川14分鐘的語音數(shù)據(jù)做了訓(xùn)練，形成了這樣一個“作品”其實(shí)小川平時講故事的情感肯定不像機(jī)器合成出來的這么飽滿，包括這14分鐘的語音數(shù)據(jù)聽起來非常的平，因此我們在這個場景下會對父母們有很大的幫助。

我們前段時間做了一個里程碑式的嘗試。

此前，語音合成一向很難放到付費(fèi)音頻的領(lǐng)域來使用，因?yàn)楦顿M(fèi)音頻聽眾對音頻質(zhì)量有要求，其實(shí)是一個音頻表演，交付的是一個音頻內(nèi)容，聽眾要為這件事買單，所以目前所有的付費(fèi)平臺都不敢用機(jī)器合成的方式進(jìn)行付費(fèi)音頻的生產(chǎn)。

就在前段時間我們在得到平臺上跟梁寧合作，用轉(zhuǎn)述師的聲音套上梁寧的聲音皮膚來合成音頻。

這樣出來的效果既保留了表演的部分，同時還帶了梁寧的音色和發(fā)音習(xí)慣，這種方法解決了很多大咖、IP音頻生產(chǎn)中的痛點(diǎn)，也是全球第一次在付費(fèi)音頻領(lǐng)域做語音合成的嘗試。之后我們會和更多的IP合作，也會看到更多這樣的內(nèi)容。

搜狗分身

同時，我們覺得有語言不夠，因?yàn)槲磥砣藱C(jī)交互的界面一定有語音又有視頻，所以我們做了分身技術(shù)，去年年底，我們聯(lián)合新華社推出了AI合成主播，為了讓虛擬分身的效果變得更加逼真，到現(xiàn)在為止我們經(jīng)歷了四代技術(shù)演變。

今年年初的時候，虛擬主播的面部表情和動作還是相對比較僵硬的，后來我們做的效果就非常的逼真了，如果我不說這是機(jī)器合成的話，可能很多朋友分辨不出來這個到底是機(jī)器做的還是真人。

我們發(fā)布了第四代合成分身技術(shù)以后，還可以做更多語種，比如我們做了第一個俄語的合成主播。

另外，這項(xiàng)技術(shù)也在很多的行業(yè)落地，比如說我們幫平安做了AI客服。

因?yàn)槠桨灿幸粋€需求，在做貸款審核的時候需要一個面對面的客服來進(jìn)行審核，這個過程是通過網(wǎng)絡(luò)完成的。所以我們幫平安做了一個虛擬客服的形象，這個客服早就已經(jīng)上崗了。

目前，我們的AI合成主播在互聯(lián)網(wǎng)法院、新華社、央視，包括在平安已經(jīng)產(chǎn)生了實(shí)際的應(yīng)用。

搜狗AI翻譯

搜狗為什么做翻譯？

因?yàn)樗压吩谧鲚斎敕ā⒆鏊阉鞯臅r候，會遇到跨語言信息表達(dá)和獲取的問題。

現(xiàn)在，華語是全球第一大語言，剩下的語言使用人數(shù)相對比例更少、有更長尾的分布，語言的不同會讓信息和文化的交流產(chǎn)生隔閡。所以我們希望搜狗能通過一個好的翻譯能力，幫助用戶做更好的信息交流和內(nèi)容獲取。

我們的翻譯到目前為止取得了好幾次行業(yè)內(nèi)的突破。

首先，在2016年11月份，第三次烏鎮(zhèn)互聯(lián)網(wǎng)大會上，我們首發(fā)了搜狗同傳，這也是世界上第一次把機(jī)器同傳用到了真實(shí)的場景下，并且替代人工同傳。

不久后，我們又在2017年1月份上線了英文搜索，其實(shí)是國內(nèi)首個跨語言檢索的搜索引擎，大家搜中文就可以得到英文的內(nèi)容，還可以幫大家翻譯成中文的結(jié)果，尤其是在學(xué)術(shù)、醫(yī)療的領(lǐng)域，很多優(yōu)質(zhì)資源都在外網(wǎng)，會對大家有很大的幫助。

同年10月份，我們又發(fā)布了搜狗AI翻譯機(jī)，也是同類產(chǎn)品中首個能夠離線翻譯的。因?yàn)槲覀兂鰢?jīng)常碰到?jīng)]有網(wǎng)絡(luò)的情況，我們是首個能夠把離線翻譯做到實(shí)用級水平的。

后來我們又在2018年的時候推出了英文到中文的翻譯，因?yàn)楫?dāng)時國內(nèi)做同傳都是中文到英文，但實(shí)際上在座的各位看一個中文演講者的時候，其實(shí)不需要翻譯內(nèi)容，更多的是對英文的翻譯。所以我們從更落地、更實(shí)用的方向，做了國內(nèi)第一個從英文到中文的同傳。

目前為止，我們在翻譯上，尤其是同傳上取得了相對很實(shí)用的效果。比如說今年我們支持了大概100場跨語言的會議，像蘋果的發(fā)布會，我們直接給幾個網(wǎng)站加了同傳進(jìn)行直播。

其實(shí)一年前，大家在很多活動現(xiàn)場看到的AI同傳會變成車禍現(xiàn)場，也有一些翻譯效果很不好的情況。但現(xiàn)在，大家看到這個翻譯的時候，AI同傳已經(jīng)真的開始進(jìn)入到可用的地步了。

當(dāng)然我們現(xiàn)在的效果還沒法跟頂級的人類同傳相比，但是我們會用在更多的場合，因?yàn)楹芏鄨龊鲜菦]有好的人類同傳資源的，但是有了機(jī)器同傳，就會有更好的現(xiàn)場部署，幫助與會者完成信息的交流。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）