AI降噪軟件的出現(xiàn),不僅僅要終結(jié)手機(jī)雙麥克風(fēng)時(shí)代

從諾基亞到iPhone X,手機(jī)在這些年產(chǎn)生了天翻地覆的變化。按鍵消失了、邊框消失了、連耳機(jī)孔都消失了,屏幕越來越大、攝像頭也越來越清晰……

不過人們很難感知到的一點(diǎn)變化是,通話中的噪聲變得越來越小了。在機(jī)場、火車站一類地方嘈雜的背景音中,清晰地聽到彼此的聲音并不是一件容易的事,麥克風(fēng)會把環(huán)境音一起收集起來,接聽時(shí)會受到巨大的干擾。

為了解決這個(gè)問題,手機(jī)廠商做出了很大努力。目前主流的解決方案是雙麥克風(fēng),一個(gè)放在靠近嘴巴的地方收集人聲,一個(gè)放在頂端或背部收集環(huán)境音,再通過算法將人聲從背景音中剝離出來,傳送到手機(jī)的另一端。

但雙麥克風(fēng)+算法真的是主動(dòng)降噪最好的選擇嗎?

兩個(gè)麥克風(fēng),仍然解決不了一個(gè)老問題

顯然不是這樣的。

首先雙麥克風(fēng)降噪本身就有一定的局限性,因?yàn)樗惴ㄒ谑謾C(jī)終端運(yùn)行,所以規(guī)模不能太大,實(shí)現(xiàn)效果也相對有限。具體表現(xiàn)為,有時(shí)用戶不再說話時(shí),靠近嘴部的麥克風(fēng)收集的其實(shí)還是環(huán)境噪音,對于人聲剝離的計(jì)算會產(chǎn)生一種斷斷續(xù)續(xù)的狀況。而且當(dāng)用戶使用藍(lán)牙耳機(jī)或有線耳機(jī)通話時(shí),手機(jī)端的雙麥克風(fēng)降噪算法往往又會失效。

同時(shí)雙麥克風(fēng)在工業(yè)設(shè)計(jì)上也會造成很多阻礙。兩個(gè)麥克風(fēng)會讓聲學(xué)音頻路徑的設(shè)計(jì)更加復(fù)雜,在ODM和OEM角度都會增加生產(chǎn)設(shè)計(jì)成本。尤其在如今手機(jī)越來越追求屏占比和輕巧的今天,元件自然是越少越好。

而且在一些使用場合中,用來收集人聲的麥克風(fēng)不一定會被放在人們的嘴邊。例如在錄音,或者應(yīng)用一些App上的對講機(jī)功能時(shí),人習(xí)慣將手機(jī)放置在桌子上,或者拿在舉例嘴略遠(yuǎn)地方。這時(shí)兩個(gè)麥克風(fēng)很難接收到不同的聲音,讓算法起不到作用。

如果腦洞開的再大一點(diǎn),未來我們的手機(jī)不一定還是如今的平板形狀。也許是能卷起來的曲面屏手機(jī),也許是眼鏡形態(tài),未來通話的交互方式,也不一定是將手機(jī)的一部分放在嘴邊收聲。

總之,這種雙麥克風(fēng)降噪模式絕不是主動(dòng)降噪最終的解決方案。

并不新鮮的DNN降噪,怎樣才能落實(shí)應(yīng)用?

其實(shí)早在2015年,中國科技大學(xué)語音與語言信息處理國家工程實(shí)驗(yàn)室就創(chuàng)作了關(guān)于通過深度神經(jīng)網(wǎng)絡(luò)+單麥克風(fēng)實(shí)現(xiàn)主動(dòng)降噪的論文。具體實(shí)現(xiàn)方式是,建立含有噪聲+人聲和純凈人聲的數(shù)據(jù)集,以深度神經(jīng)網(wǎng)絡(luò)為架構(gòu)訓(xùn)練出分離噪聲和人聲的“語音增強(qiáng)回歸”算法。

在初步試驗(yàn)后,這種算法的結(jié)果還不錯(cuò)。從訓(xùn)練成本來看,即使用人工合成的數(shù)據(jù),算法結(jié)果仍然表現(xiàn)優(yōu)秀。也就是說算法的應(yīng)用者不需要面對到現(xiàn)實(shí)世界收集數(shù)據(jù),可能會侵犯隱私的難題。從應(yīng)用上來說,這一算法的降噪能力并不比雙麥克模式差,甚至還能克服雙麥克風(fēng)克服不不了的間斷噪聲問題,有時(shí)候人們在走路或跑動(dòng)時(shí)接電話會形成偶爾出現(xiàn)的間斷噪聲,以往的雙麥克風(fēng)模式很難捕捉到這種噪聲,但語音增強(qiáng)回歸算法就能將人聲從中剝離開來。

不過這種算法在這幾年間都沒有得到很好的應(yīng)用,原因很簡單,深度神經(jīng)網(wǎng)絡(luò)模型往往體量較大,很難實(shí)現(xiàn)在終端上運(yùn)行,如果在云端運(yùn)行,又難免會因?yàn)檠舆t狀況不能在實(shí)時(shí)通話中應(yīng)用,要知道人類對于交談時(shí)延遲的忍耐最多只有200毫秒??梢怯迷谡Z音的后期處理上,好像也并沒有什么意義,只要換個(gè)收聲好一點(diǎn)的話筒就能解決問題,還能保證音質(zhì)還原。

不過隨著這兩年以來終端算力的增長,以及對AI算法的不斷優(yōu)化,在終端部署這類模型已經(jīng)逐漸成為可能。例如一些藍(lán)牙耳機(jī)已經(jīng)部署上了可以在本地運(yùn)行的RNNoise算法,通過簡單的運(yùn)算來分離單一收音來源的噪聲。

除了手機(jī),AI降噪還有更廣闊的舞臺

這種本地AI降噪技術(shù)的應(yīng)用舞臺,不僅僅在手機(jī)一種產(chǎn)品上。除了手機(jī)通話之外,我們其實(shí)無處不受通話噪音的干擾,尤其當(dāng)語音交互應(yīng)用的越來也多時(shí),這些問題也越來越嚴(yán)重。

比如在游戲直播時(shí),主播的聲音可能會被外放的游戲聲音干擾,必須高價(jià)購買專用聲卡和麥克風(fēng)才能和粉絲暢快的溝通。又比如車載場景下的語音交互,又有可能被駕車時(shí)嘈雜的背景音和導(dǎo)航的聲音干擾,最后逼得一些車聯(lián)網(wǎng)方案將麥克風(fēng)陣列裝置在了方向盤上。以及這幾年很流行的智能音箱,為了防止家庭環(huán)境中的噪音干擾,需要在麥克風(fēng)陣列上增加很多成本,像是蘋果的HomePod就足足安裝了6個(gè)麥克風(fēng)陣列……

但這一切都在被語音增強(qiáng)回歸算法和終端計(jì)算所改變。

就像最近,一家名為Krisp的創(chuàng)業(yè)企業(yè)集合了相關(guān)算法推出了一款應(yīng)用于PC端的軟件,利用PC端本地算力來運(yùn)行模型,降低PC端收音的噪音。不需要昂貴的聲卡和外置麥克風(fēng),和Skype等等軟件也不會產(chǎn)生沖突。同時(shí)Krisp還計(jì)劃推出針對于游戲的定制版本,專門應(yīng)對游戲語音、游戲直播時(shí)被游戲背景音樂困難的問題。

目前這款軟件在英偉達(dá)的GPU、英特爾的CPU/GNA和ARM的芯片上都能運(yùn)行,和高通的合作也在洽談之中。也就是說如今的PC版本只是開始,未來只要能應(yīng)用這些芯片的終端,都可以應(yīng)用上Krisp的軟件,實(shí)現(xiàn)在終端的實(shí)時(shí)主動(dòng)噪音抑制。

算法路徑逐漸清晰,軟件市場會迎來下一個(gè)爆發(fā)期嗎?

因此Krisp也展示出了充分的市場前景,受到了資本的青睞,在首輪融資中就融到了150萬美元。Krisp的出現(xiàn)也帶出了一個(gè)問題:隨著終端算力的提升和小規(guī)模AI算法的發(fā)展,這種軟件替代硬件的模式是否會迎來上一個(gè)商業(yè)上的小爆發(fā)?

在終端功能的實(shí)現(xiàn)上,永遠(yuǎn)都有算法和硬件兩條路。降噪可以用雙麥克風(fēng)解決,也可以用AI算法解決;拍照效果可以用雙攝提升,也可以用單目攝像頭+算法來提升;電量不足可以增大電池容量,也可以用資源調(diào)度算法解決……

雖然以往我們都是通過硬件上的研發(fā)來解決,但這其中也存在不小的問題:硬件的頻繁更新會給廠商帶來巨大的生產(chǎn)和研發(fā)成本,這些成本轉(zhuǎn)嫁到消費(fèi)者身上時(shí),會導(dǎo)致高端和低端機(jī)型在硬件上差距太大,其實(shí)還會給開發(fā)者帶來負(fù)擔(dān)。而且現(xiàn)在硬件追求輕薄小巧,更加大了硬件創(chuàng)新的難度。

但今天我們有了用算法解決問題的條件,事情就會產(chǎn)生很多變化。

首先很多原本在貴價(jià)產(chǎn)品上才有的功能,會出現(xiàn)“平價(jià)替代”方案。例如此前iPhone X用3D結(jié)構(gòu)光實(shí)現(xiàn)的Animoji,如今在快手一類的產(chǎn)品上也可以用AI算法實(shí)現(xiàn)類似功能。

同時(shí)算法的更新迭代比硬件更加敏捷高效,用戶體驗(yàn)可以得到極大的提升。一些創(chuàng)新功能可以更快速的來到用戶面前并得到反饋。

最后,終端產(chǎn)品在研發(fā)成本和產(chǎn)品形態(tài)上都有了更廣闊的想象空間。尤其是未來5G應(yīng)用后,算法模型也許也不再需要拘泥于終端算力,或許會徹底改變我們使用終端產(chǎn)品的方式。

如此看來,或許幾年之后軟件市場會迎來自移動(dòng)應(yīng)用之后的又一次發(fā)展機(jī)會,起跑線已經(jīng)劃好,就待哨聲吹響了。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-12-13
AI降噪軟件的出現(xiàn),不僅僅要終結(jié)手機(jī)雙麥克風(fēng)時(shí)代
從應(yīng)用上來說,這一算法的降噪能力并不比雙麥克模式差,甚至還能克服雙麥克風(fēng)克服不不了的間斷噪聲問題,有時(shí)候人們在走路或跑動(dòng)時(shí)接電話會形成偶爾出現(xiàn)的間斷噪聲,以往的雙麥克風(fēng)模式很難捕捉到這種噪聲,但語音增

長按掃碼 閱讀全文