123,123

IDC 預計，2019 年全球智能家居設(shè)備市場出貨量將達到 8.327 億臺，將同比增長 26.9％。蛋糕之大讓業(yè)界一片歡騰，尤其是進入門檻較低的語音識別應用市場，吸引了眾多 AI 創(chuàng)業(yè)公司的目光，市面上出現(xiàn)了多款針對語音識別的 AI 芯片，其中不乏思必馳、云之聲等算法廠商，還有出門問問、若琪等終端廠商，語音 AI 芯片市場的競爭變得異常激烈。

近期，探境科技也推出了具有 AI 雙麥降噪功能的語音識別方案，即 Voitist 音旋風 612?？赡芎芏嗳藢μ骄晨萍疾⒉皇鞘煜?，其實這并不是一家新的 AI 公司，而是在 2017 年就已經(jīng)成立，只是公司初期在埋頭研發(fā)，因此很少出現(xiàn)在公眾的視野中。據(jù)其技術(shù)副總裁李同治介紹，“公司創(chuàng)始人魯勇曾經(jīng)在全球著名半導體公司 Marvell 擔任研發(fā)高管，研發(fā)團隊有著給蘋果、三星、希捷、西數(shù)、特斯拉等國際頂級公司量產(chǎn)芯片供貨的經(jīng)驗，公司的目標是為客戶提供終端人工智能芯片及整體解決方案。如今，公司在北京、上海、深圳、杭州、合肥及美國硅谷都設(shè)立了研發(fā)基地，目前公司員工近 200 人，其中技術(shù)研發(fā)人員 150 人，平均研發(fā)經(jīng)驗在 15 年以上。”

在今年的 7 月份，探境科技就推出了首款 AI 語音識別芯片音旋風 611，并且已經(jīng)量產(chǎn)，李同治介紹，“音旋風 611 支持多達 200 條命令詞，能夠覆蓋家庭生活場景中幾乎所有常見的語音控制命令；在識別率方面，不低于 99%的喚醒率，超過 97%的識別率，以及低于 24 小時 1 次的誤喚醒率。適用于各種需要語音進行控制的應用場景，芯片內(nèi)嵌領(lǐng)先的 NPU 架構(gòu)，配合單麥克風即可實現(xiàn) 5-10m 遠距離的語音識別，識別延遲小于 0.2 秒，不需要依賴云和網(wǎng)絡，可在本地完成推理運算，音旋風 612 是 611 的升級版?！?/p>

AI 公司以技術(shù)取勝才能走得更遠，探境科技能夠推出這樣的產(chǎn)品也全依賴于技術(shù)驅(qū)動。AI 應用需要軟件和硬件共同實現(xiàn)，市面上的很多公司要么單獨做算法，要么單獨做硬件，這就容易出現(xiàn)軟件和硬件匹配困難的問題，探境科技是在軟件和硬件兩方面同時研發(fā)，從而實現(xiàn)軟硬件融合，包括芯片設(shè)計、結(jié)構(gòu)框架、系統(tǒng)、算法等全部自主研發(fā)。在發(fā)布會上，探境科技負責人從硬件方面介紹了公司的獨特技術(shù)存儲優(yōu)先架構(gòu)，從軟件方面分析了公司的三大黑科技。

“殺手锏”：存儲優(yōu)先架構(gòu)

傳統(tǒng)的處理器一般都采用馮·諾伊曼體系結(jié)構(gòu)，計算單元和存儲單元相互獨立，每次運算計算單元將數(shù)據(jù)從存儲單元中提取出來，處理完成后再寫回存儲單元中。近年來，處理器性能飛速提升，但是訪問存儲器的速度并沒有相應的提升，所以訪問存儲器的速度無法跟上處理器消耗數(shù)據(jù)的速度，導致處理器的計算性能無法充分發(fā)揮出來，這就出現(xiàn)“存儲墻”問題。

為了解決“存儲墻”問題，探境科技推出了存儲優(yōu)先架構(gòu)（即SFA架構(gòu)），這是一種不同的技術(shù)路線。探境科技創(chuàng)始人魯勇解釋，所有深度學習算法和 AI 芯片都面臨一個問題，它們并不是要做卷積運算的乘法或加法，這并不是最難解決的問題，難點是在于有很多數(shù)據(jù)在重復使用，數(shù)據(jù)在存儲器里的位置、相對關(guān)系、讀取的性能會影響到算法運行的性能。而且數(shù)據(jù)的存儲帶寬要求很大，存儲功耗很高。傳統(tǒng)上的解決方式不考慮存儲墻的問題，暴力增加存儲單元，成本很高。我們用一種獨特的芯片架構(gòu)來推翻馮諾依曼體系架構(gòu)，把數(shù)據(jù)讀取的次數(shù)降低，降低數(shù)據(jù)的冗余，從而降低帶寬的需求，通過算法和調(diào)度數(shù)據(jù)的方式，改進數(shù)據(jù)管理，在硬件上控制數(shù)據(jù)流，降低數(shù)據(jù)重復使用，通過軟件和硬件結(jié)合，在芯片上降低資源的鏈接復雜度，這種架構(gòu)我們稱為存儲優(yōu)先架構(gòu)，其實我們改善的是芯片本身的原因?！?/p>

從效果來看，魯勇強調(diào)，“這種方法可以帶來超高的能效比，數(shù)據(jù)訪問可降低 10-100 倍，存儲子系統(tǒng)功耗下降 10 倍以上，28nm 工藝系統(tǒng)能效超過 4T Ops/W?！?/p>

魯勇將 SFA 架構(gòu)稱為真正符合商業(yè)應用的 AI 芯片架構(gòu)，因為其采用成熟的設(shè)計方案，無需對底層器件進行修改設(shè)計，可以走商業(yè)化路徑；通用性高，芯片面向的場景眾多，必須支持多種算法才可以被商業(yè)化；同時易用性高，用戶學習成本低，模型移植簡單。

需要指出的是，一般 AI 芯片只針對某一神經(jīng)網(wǎng)絡進行運算，SFA 架構(gòu)支持任何神經(jīng)網(wǎng)絡，而且可以調(diào)整參數(shù)。

存儲優(yōu)先算法既然如此高效，為什么其它 AI 公司沒有開發(fā)？魯勇的解釋是，這是一項有技術(shù)門檻的技術(shù)，不僅在技術(shù)上需要要懂數(shù)學原理、架構(gòu)、數(shù)據(jù)管理知識，同時需要有豐富的芯片設(shè)計經(jīng)驗，綜合起來才能做到高效率，這些都是探境科技所具備的。

如果說存儲優(yōu)先架構(gòu)是探境科技在硬件上實現(xiàn)的優(yōu)化，軟件上又做了哪些工作？李同治向我們做了詳細介紹。

三大“黑科技”加身，出貨量過百萬

李同治將探境科技在軟件上的創(chuàng)新歸結(jié)為三大“黑科技”，分別是 AI 降噪算法、高計算強度神經(jīng)網(wǎng)絡 HONN、基于 FCSP 的端到端 AI 雙麥算法。

黑科技之一：AI降噪算法

目前在智能家居應用中，語音識別面臨環(huán)境噪雜或者距離遠，從而導致識別不清的難題，智能家居設(shè)備廠家急需一種能夠準確過濾噪音，并提取目標聲源的方案。

在語音識別技術(shù)中，信噪比是衡量識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低，識別難度越大。在語音識別的研發(fā)過程中，一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結(jié)果輸入四個環(huán)節(jié)。想做好識別，首先要在降噪處理上下功夫。

探境科技自研了 AI 降噪算法基于深度學習，不僅能夠處理穩(wěn)態(tài)的噪聲，非穩(wěn)態(tài)的突發(fā)性噪聲也能快速過濾。為了驗證探境 AI 降噪算法的有效性，技術(shù)人員將一批信噪比在 3dB 左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試，降噪后比降噪前提高 30%識別準確率。

黑科技之二：高計算強度神經(jīng)網(wǎng)絡HONN

在對聲音進行降噪處理之后，就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中，神經(jīng)網(wǎng)絡模型所需的算力決定了模型的描述能力，同時也決定了模型處理能力和識別率的上限。在傳統(tǒng)的語音識別算法里，國內(nèi)很多語音識別芯片都采用了全連接操作 DNN 技術(shù)。但是相對全連接操作，卷積操作能夠提供更高的計算強度，且卷積運算與人類大腦負責感知模塊的處理方法類似，能夠提取滿足大腦認知的本質(zhì)特征。

探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中，在語音識別算法上加入了更多的卷積操作，重新設(shè)計了一個高計算強度的神經(jīng)網(wǎng)絡，即 HONN（High Operation Neural Network）。

李同治解釋，“對比發(fā)現(xiàn)，HONN 僅需要 350k 的存儲空間，而 DNN 需要 1.6M 的存儲空間，更低的存儲需求意味著成本更低。同時 DNN 與 HONN 所需的算力相反，處理高強度模型單幀時，HONN 需要超過幾百兆 OPS，而一般的 DNN 模型僅為個位數(shù)的算力，兩者相差超過 30 倍。對于神經(jīng)網(wǎng)絡來說，模型所需的算力決定了模型識別率的上限。相對安靜的環(huán)境下兩者之間差別不大，但是當信噪比進一步降低時，基于 HONN 的方法識別優(yōu)勢非常明顯。”

在實際測試中，在抽油煙機的噪音中（大約 70 分貝），HONN 方式下的識別信噪比約為 3~5dB，單燈模型的識別效果非常準確。

黑科技之三：基于FCSP的端到端AI雙麥算法

信噪比還有一種更嚴苛的情況，就是 0dB 和負 dB，0dB 意味著噪聲和信號強度一樣，甚至噪聲比語音信號還要強，面對這種應用場景，探境科技采用了基于 FCSP 的端到端 AI 雙麥算法。

傳統(tǒng)的麥克風陣列處理算法有幾大缺點，從而造成處理效果并不理想。“為了克服傳統(tǒng)處理方式的缺點，我們設(shè)計出了基于 FCSP 的端到端 AI 雙麥算法。”李同治對記者表示“FCSP（Frequency Complex Subspace Projection）是我們自研的頻域復數(shù)子空間投影算法的簡稱，這個算法直接輸入陣列信號，輸出的是最終的識別結(jié)果，中間部分全部交給基于深度學習的 AI 算法來處理，不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化，避免了語音增強與語音識別模塊錯配的問題?！?/p>

另外，在模型訓練期間，采取了“注意力增強”的學習方法，能夠靈敏的檢測到喚醒詞和命令詞，即使干擾信號與目標信號方向接近，也能靈敏的進行喚醒和識別。李同治做了一個形象的比喻，“這個類似于在一個嘈雜的環(huán)境里面，如果有人喊自己的名字，一下子就能反應過來。”

李同治強調(diào)，“我們采取了頻域復數(shù)子空間投影，抗噪性能強，在信噪比為 0dB 時，相對于傳統(tǒng)的處理算法，相對識別錯誤率降低超過 20%?！?/p>

通過 AI 語音算法+HONN 神經(jīng)網(wǎng)絡模型來提升識別率，再通過 FCSP“端到端”的雙麥處理算法簡化識別流程，降低最終識別錯誤率，探境的語音算法實現(xiàn)了跨越式的升級，加上通過存儲優(yōu)先架構(gòu)打造的 AI 芯片，探境科技可以為客戶提供芯片、算法俱全的 Turn-key 方案。

除了支持 AI 雙麥的 Voitist 音旋風 612 之外，還包括在離線一體的 Voitist 音旋風 621、以及語音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風 7 系列。探境目前擁有約 30 家合作伙伴，既有美的、海爾等智能家居制造大廠，也有世強科技在垂直領(lǐng)域頗具影響力的渠道商，知名智能家居制造商阿凡達智控也剛剛與探境達成合作，目前，探境科技的產(chǎn)品出貨量已達百萬級別。

未來規(guī)劃：從語音到圖像，離線在線一體方案已在路上

近兩年，邊緣計算大熱，隨著數(shù)據(jù)量不斷增大，云端的承載壓力越來越大，因此終端客戶尋求在邊緣完成部分數(shù)據(jù)處理，從而分擔云端的壓力。尤其在 AI 領(lǐng)域，未來對延遲和帶寬提出更苛刻的要求，探境科技也認為，真正的人工智能應用場景，是不需要借助云端服務等做遠程支持的，只有將人工智能做到終端上來，讓每個設(shè)備都具備人工智能，才是現(xiàn)階段“人工智能”的進化。

目前廠商多采用在線方案，就是打一個數(shù)據(jù)包放到云端，而離線方案是語音識別算法在本地，音樂等播放內(nèi)容還是放在云端。據(jù)魯勇透露，未來探境還會將語音產(chǎn)品進行二次升級，推出更多在線離線一體化方案。探境科技采用 HONN 神經(jīng)網(wǎng)絡模型，意味著處理模型變小，放在邊緣的存儲容量變小，成本也隨之降低。關(guān)于用戶對在線方案和離在線一起方案的選擇，魯勇表示，離線在線一體方案和在線方案兩種會共存，畢竟用戶的想法不同，選擇也不同。

關(guān)于產(chǎn)品規(guī)劃，魯勇還表示，“探境不僅僅是一個語音芯片公司，而是一家語音、圖像整體結(jié)合的 AI 芯片公司。除了語言市場之外，我們還看好工業(yè)視覺、新零售、安防、輔助駕駛等市場。我們的圖像芯片在 2019 年 Q4 就已經(jīng)流片成功，在某些應用中已經(jīng)開始產(chǎn)生營收。AI 芯片的蛋糕非常大，探境希望可以聯(lián)合上下游一起，開發(fā)生態(tài)，開放 SDK 和工具鏈，不僅是大家可以直接使用我們的產(chǎn)品，我們也希望有大量的合作伙伴，完成更多的場景開發(fā)。”

魯勇認為，AI 芯片這一領(lǐng)域不像手機 APP 那樣，瞬間可以憑一款應用獲得數(shù)百萬的用戶，AI 芯片更像馬拉松長跑，比的是耐力，而不是沖刺速度，在這場比賽中，不是要看誰跑得快，而是要看誰有潛力到達終點，誰在中途不走岔路。探境作為創(chuàng)業(yè)公司，雖然進入市場比較晚，但是這也是一個拐點期，市場教育工作已經(jīng)完成，后面市場競爭還是看核心技術(shù)，我們的優(yōu)勢在于軟件和硬件都自主研發(fā)，因此算法移植非常快，我們將從智能家居領(lǐng)域開始，先打好地基，再逐漸加碼，等待市場大潮的到來。

作者：郭云云

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）