「下周就能看到封裝好的芯片了?!乖谠浦曃挥诠诮荽髲B辦公室接受采訪的 CEO 黃偉,難掩內(nèi)心的喜悅。
這是國內(nèi)首枚面向 AIoT (AI+IoT)的 AI 芯片(UniOne),指令集和微架構(gòu)均由云知聲自研,擁有全新的芯片結(jié)構(gòu)。
「三年了,我們花費的精力和時間不比這些公司(寒武紀、地平線等公司)少?!裹S偉感嘆道,「而且我要強調(diào)一下,這不是語音芯片,是針對深度學(xué)習進行架構(gòu)設(shè)計,是對計算本身的加速,而不是算法加速?!?/p>
借由這枚芯片的流片成功,云知聲也成為中國語音 AI 公司中,第一家擁有自研 AI 芯片的公司。
采訪結(jié)束后不久,筆者終于見到了這枚 AI 芯片。
UniOne 量產(chǎn)版
芯片基于 UniOne 的 AI 指令集和 DSP 指令集,針對語音應(yīng)用場景,將麥克風陣列信號處理、語音識別及語音合成結(jié)為一體。
巧合的是,就在那段時間,芯片領(lǐng)域又接連傳來幾枚重磅消息。
阿里宣布全資收購中國大陸唯一的自主嵌入式 CPU IP Core 公司——中天微系統(tǒng)有限公司。而在此之前,阿里達摩院就曾表示正在自研 Ali-NPU。
最近,阿里又宣布全資收購語音信號處理領(lǐng)域的創(chuàng)業(yè)公司——北京先聲互聯(lián),意在布局語音專用芯片。這家公司曾為阿里、百度、小米等多家公司提供遠場語音交互軟硬件的解決方案,
放眼海外,亞馬遜自研 AI 芯片已不是新聞。這枚芯片將用于下一代 Echo 設(shè)備,提升 Alexa 的響應(yīng)時間與搜索速度。
「從 400 多人的研發(fā)團隊規(guī)模來看,應(yīng)該很早之前就開始做了?!裹S偉說。
最近又有消息指出 Facebook 正在研發(fā)智能音箱,LeCun 甚至在社交媒體上貼出了 ASIC 與 FPGA 職位的招募信息。
面對越來越熱鬧的賽道,「這證明我們走的路是對的?!裹S偉說。三年前,「我們想到做的時候,地平線還沒有成立。我們決定搭建團隊時,地平線剛成立?!?/p>
誰也逃不過漫長的研發(fā)周期,至少目前「在工業(yè)界,我們是走在前面的?!?/p>
Bring up,各項工作都完成,可以投向量產(chǎn)了。左一為公司物聯(lián)網(wǎng)事業(yè)部副總裁李霄寒,右二為公司CEO黃偉
作為大多數(shù)語音交互公司演化邏輯的「云·端·芯」
國內(nèi)從事語音交互的公司其實不算多,除了 BAT 巨頭,比較知名的公司就是搜狗、科大訊飛、云知聲、思必馳、出門問問、聲智科技、驀然認知、三角獸等公司,而且以創(chuàng)業(yè)公司為主。
在商業(yè)模式上,這些技術(shù)見長公司的選擇逐漸趨于共性:做 B 端產(chǎn)品公司的技術(shù)服務(wù)商,提供軟硬一體的解決方案。(做消費類硬件的出門問問和以 G 端業(yè)務(wù)為主的科大訊飛是兩個比較明顯的例外。)
其背后邏輯并不難理解:就尚處早期的新技術(shù)而言,其核心問題往往是「使能」(enabling technology),而這通常是一個軟硬融合的問題。
歷經(jīng)十多年市場驗證的 Mobileye 模式就是一個典型案例:算法距離應(yīng)用場景非常近,而由此產(chǎn)生的優(yōu)勢就是可以針對使用場景需求研究最適合的算法框架,然后將算法框架實現(xiàn)在芯片方案上。在加速技術(shù)落地同時,也不斷滾動數(shù)據(jù)收集,并與行業(yè)深度結(jié)合。
不過,云知聲將這個內(nèi)在邏輯更加形象地概括為了「云·端·芯」。
調(diào)試用的測試封裝。
具體說來,語音AI公司最初會從算法團隊轉(zhuǎn)型為「云平臺」商。
語音識別技術(shù)最關(guān)鍵的是先要有充足的語料積累,不光是找人去錄語音,更需要用戶真實的數(shù)據(jù)。盡快實現(xiàn)算法的云平臺化,能夠在短時間內(nèi)、很低成本地完成大量語音數(shù)據(jù)積累。
因此,語音技術(shù)公司初創(chuàng)后,通常會向擁有海量用戶產(chǎn)品開放 API,將算法云平臺化,實現(xiàn)算法團隊到云平臺服務(wù)的轉(zhuǎn)變。而免費+定制化收費(比如與垂直領(lǐng)域緊密結(jié)合的 ASR),亦即 Freemium(免費+增值)模式成為語音技術(shù)起家公司的多數(shù)選擇。
2012 年,成立后短短三個月內(nèi),云知聲就迅速完成了算法團隊向云平臺服務(wù)的轉(zhuǎn)變,將基于深度學(xué)習的語音識別引擎部署到云端。并隨著技術(shù)的變化,逐步擴展了自己的算法能力邊界,涵蓋信號處理、NLP 等。
「我們做云,不是閉門造車。而是在商業(yè)化落地過程中,結(jié)合具體場景演化云平臺?!裹S偉說。
借由觀察到的平臺數(shù)據(jù),云知聲逐漸清晰接下來的具體業(yè)務(wù)方向: 語音與非手機硬件設(shè)備的深度交互是未來的方向,IoT 產(chǎn)業(yè)下的語音業(yè)務(wù)大有可為。
比如一方面,平臺數(shù)據(jù)顯示當時比較熱的手機語音助手「是一個偽命題。」用戶活躍度很低,不足以支撐一個商業(yè)模式。
而另外一些應(yīng)用用戶量規(guī)模并不是很高,但是它的場景很明顯,比方說汽車和客廳的電視。應(yīng)用的運行總量也許不大,但每個用戶每天消費頻次非常高。
接下來,由于語音鏈條比較長,為了實現(xiàn)算法最優(yōu)效果,在技術(shù)落地過程中,技術(shù)服務(wù)商也需要考慮硬件問題。
事實上,眾多的語音識別廠商也都有聯(lián)合芯片廠商推出自己的語音識別模組,或者推出自己的麥克風陣列方案,以提升語音識別的體驗;同時,這種「Turn-Key」解決方案也更有利于傳統(tǒng)硬件廠商快速將新的產(chǎn)品推向市場。
2014 年 3 月,云知聲正式提出「云·端·芯」戰(zhàn)略——即從云平臺到設(shè)備語音交互,再到設(shè)備語音專用芯片與麥克風陣列的集成式解決方案。
「2014 年我們引入了高通的戰(zhàn)略投資。這一年開始研發(fā)通用模組,2015 年投入商用?!乖浦?IoT 事業(yè)部副總裁李霄寒說,他也是這枚芯片研發(fā)工作的負責人。
無論如何,「先將芯片做出來再說?!裹S偉回憶道。
「云·端·芯」升級迭代的背后:長出來的需求
當大家都還停留在與通用芯片廠商合作定制自己的硬件方案時,這枚流片成功的 AIoT 芯片已經(jīng)從一定程度上打破了相對穩(wěn)定了幾年的競爭格局。
「如果說我專注地來做一些事的話,我一定會專注地死去?!裹S偉說。
但是,與從算法轉(zhuǎn)型云平臺商、再接著做通用模組相比,一家算法技術(shù)公司上溯至產(chǎn)業(yè)鏈上游自研芯片,已經(jīng)打破了既有的市場分工,跨度不可謂不大,更何況當時國內(nèi)還沒有寒武紀、深鑒科技這樣的芯片公司。
「四年前下這個決心,還是比較難的。」黃偉坦言。做芯片前前后后砸了幾千萬(如果將兼職等其他人員和時間等成本加上,可能是大幾千萬。)「這也是決定難做的一個重要原因?!顾f,「不過,有人因為相信而看到。」
企業(yè)的核心競爭力無外乎幾種:產(chǎn)品或服務(wù)的差異化;規(guī)模效應(yīng)帶來的成本優(yōu)勢以及網(wǎng)絡(luò)效應(yīng)。
然而,經(jīng)過幾年的技術(shù)發(fā)展,目前語音識別行業(yè)似乎維持著最大平衡,國內(nèi)外多數(shù)公司的引擎識別率都基本在同一個水平線上,接近當前語音識別技術(shù)極限。
服務(wù)的同質(zhì)化,加上多數(shù)公司業(yè)務(wù)都有不少重合(比如車載、智能家居、機器人),誰能贏得客戶很大程度上成了拼商務(wù),這也意味著,價格戰(zhàn)甚至惡性競爭幾乎無法避免,畢竟產(chǎn)品方更替方案的成本低。如果技術(shù)服務(wù)商的供應(yīng)鏈砍價能力不夠,自身既有方案價格反而還會高出百分之幾十。
因此,現(xiàn)有業(yè)務(wù)的升級必須訴諸內(nèi)部結(jié)構(gòu)的優(yōu)化。這就像谷歌一定要去做 TPU,才可能把它的 AI 服務(wù)做得特別好,同時降本并拉開差異化距離。
公司總部一角
「以前的場景,比如移動端、嵌入式端、PC 端都有各自的一些芯片體系作為支撐。」李霄寒說,
「現(xiàn)在, 我們面臨的是 AIoT 場景,需要引入人工智能的能力。以前既有芯片產(chǎn)品體系無法滿足當前場景的巨大要求?!?/p>
對于云知聲來說,一枚 AIoT 芯片可以幫助實現(xiàn)技術(shù)服務(wù)的差異化,形成新的核心競爭力。隨著云知聲自 主 AI 芯片的落地,通過提供標準化的人機交互產(chǎn)品對接接口,可為合作客戶提供允許在端和云兩方面均可進行高度定制的解決方案。
事實上,近幾年,云知聲在家居、智能音箱、兒童機器人等市場已經(jīng)實現(xiàn)百萬級別的 IVM(通用芯片方案)應(yīng)用,成功驗證了市場、產(chǎn)品和用戶場景的合理性。而返回的數(shù)據(jù)進一步打磨了算法,也為 ASIC 芯片的研發(fā)奠定了堅實基礎(chǔ)。
「我們做芯片的邏輯和亞馬遜差不多?!裹S偉說。
不過,一個更為現(xiàn)實的開「芯」因素是百萬級別 IVM 規(guī)模化應(yīng)用,也將通用方案的弊端充分暴露出來。
本質(zhì)上,通用方案是一個雙芯片方案。
一方面,通用方案沒有深度學(xué)習能力,而應(yīng)用需要比較高的主頻,比較強的計算能力芯片。另一方面,需要單獨的降噪芯片去跑對實時性要求很高的降噪算法。
雙芯片,再加上每一個都配備的相應(yīng)外圍器件,板子不僅會變大,價格也會上去。賣的越多,生產(chǎn)和維護成本也跟著上漲,很大程度妨礙了服務(wù)的規(guī)模化。
通用模組方案,個頭比較大。
「(是原有方案價格區(qū)間)百這個量級的?!估钕龊f。也就是說,BOM 每增加一塊錢,最終到用戶手里邊的售價就會增加 3 到 8 塊錢(一般在 6 塊錢左右。)如果成本增加了 100 塊錢,最后售價會增加 600 塊錢。
這意味著你有兩個選擇,要么改變當前比較低成本的產(chǎn)品形態(tài),原來是 500 塊錢區(qū)間,現(xiàn)在變成 1000 多塊錢區(qū)間的。不過,用戶范圍馬上變了?;蛘?,只能放在相對對成本不那么敏感的高端產(chǎn)品上,賣一萬塊錢,這個是可以的。但這又大大局限了產(chǎn)品的應(yīng)用范圍。
通過把成本降下來,可以在原來可能是金字塔尖上那些產(chǎn)品可以為金字塔的主體所用。而在云知聲看來,這才是物聯(lián)網(wǎng)的本來意義。
重構(gòu)芯片架構(gòu)的專用型芯片,成為平衡這些訴求的唯一方案。據(jù)介紹,UniOne 能將當前語音 AI 的相關(guān)的能力能夠充分的發(fā)揮出來。
「從前面的評測數(shù)據(jù)來講,是綽綽有余的。可以把當前最先進的語音技術(shù)放到我們的芯片上跑,完全沒問題?!估钕龊f。
至于有多么省錢,黃偉舉了一個例子。
以智能音箱為例。跟聲音相相關(guān)的部分,BOM 差不多在 100 快左右(看你用幾個麥克風和什么芯片,基本上在 100 塊左右)。有了這枚芯片,以我們主推方案為例,BOM 可以控制在 3 美金以內(nèi)。就是說,以前 100 塊錢做的事情,現(xiàn)在十幾塊人民幣可以搞定。我們 3 美金方案做的事情是同價位通用方案的 40 倍。
UniOne : 全棧能力與平衡藝術(shù)
和已經(jīng)呈現(xiàn)紅海狀態(tài)的圖像和視頻深度學(xué)習加速芯片領(lǐng)域不同,語音交互領(lǐng)域的芯片正處在上升期,目前玩家也比較少。
一個比較重要的原因在于,語音交互鏈條比較長,全棧打通的少。就此而言,這類芯片的設(shè)計,比圖像和視頻深度學(xué)習芯片更復(fù)雜。
云知聲能將降噪、語音識別和語音合成結(jié)合到 UniOne ,離不開云知聲修建的「高速公路」 Atlas,「你可以叫它云知聲版本的 TensorFlow」 黃偉說。
公司將統(tǒng)計學(xué)習和深度學(xué)習的算法抽象出來,搭建出一個通用 ML 平臺。在這條高速公路的幫助下,云知聲衍生出語音識別、NLP、TTS 等技術(shù)。只需少數(shù)的人才即可完成全棧的能力,無需(實際上也不可能)為全鏈條的每個技能建造一支深度學(xué)習團隊。
「包括我們的芯片也是從這衍生出來的?!裹S偉介紹道,指令集(也是最為重要的部分)就是函數(shù),我們將 Atlas 里面的深度學(xué)習的一些常規(guī)算法、函數(shù)硬件化了。由于 Atlas 是與硬件耦合在一起(這一點與TF不同)的,因此研發(fā)效率也高很多。
云知聲 CEO 黃偉講述公司為什么可以在人數(shù)并不多的情況下做了這么多事情。
全棧能力與研發(fā)效率固然是一方面,但是讓李霄寒印象最為深刻的體驗是:AI 芯片在保證高性能、高能效比的同時,兼顧靈活性和通用性。他認為,這是芯片設(shè)計中最難把握的事情之一。
「我們曾經(jīng)追求過極致性能,也追求過極致功耗。但后來發(fā)現(xiàn)過了一定程度,超出你的需要之后,真心沒那么重要。追求極致功耗很容易,但是你的成本會上來,技術(shù)挑戰(zhàn)也會上來。」李霄寒說。
「風險加大。一旦你失敗,意味著你這一年來白做了?!勾翱谄诘臅r間成本,誰都浪費不起。
還有算法方面的平衡。比如,既要考慮到對算法要有一定的耦合性,這樣才能最優(yōu)化,又考慮到要降低它的耦合。
而且做智能家居,光有聲音是不夠的,未來還需要畫面甚至執(zhí)行能力(比如機器人)。 「我們這枚芯片還可以跑圖像?!裹S偉說,我們判斷教育未來也應(yīng)該是多模態(tài)的。
過去三年中,云知聲花了很多時間在調(diào)研,而流片時間其實只有半年。
「其余時間都是利用各種工具在紙上推演。從當初許多選擇,最后剩下一兩個?!估钕龊f。
云知聲 IoT 事業(yè)部副總裁李霄寒
「如果三年前,現(xiàn)在這些芯片創(chuàng)業(yè)公司已經(jīng)存在,你們會選擇與他們合作嗎?」筆者不禁好奇。
「不會」李霄寒坦言。因為無法確定有限時間里,是否可以做出芯片。不過,最關(guān)鍵的是「不知道最后適不適合我們?!?/p>
算法本身是在演進。「這需要芯片公司對算法有深刻的了解,而且對這個算法有一個比較強的抽象能力,你對他未來的演進是有足夠的信心,你才去敢為這個東西為它不變的那部分去設(shè)計芯片。」李霄寒說。而這,正是很多芯片公司比較糾結(jié)的地方。芯片公司永遠不知道哪個時間點算法會穩(wěn)定下來。
所謂指令集,其實就是函數(shù)。對于算法公司來說,他們幾乎不可能將核心算法的源代碼開放給芯片公司。然而,ASIC 存在的目的就是讓深度學(xué)習發(fā)揮最大威力,如果沒有深度耦合,彼此不能開誠布公,這也就失去研發(fā)這枚芯片的真正意義。黃偉補充道。
公開資料顯示,UniOne 功耗與性能的設(shè)計上,通過運算單元之間的可編程互聯(lián)矩陣,在保證運算效率的同時,采用多級 - 多組 - 多端口的 Memory 架構(gòu)以保證片內(nèi)數(shù)據(jù) 帶寬的提升及降低芯片功耗。
而在架構(gòu)靈活性方面,通過 Scratch-Pad 將主控 CPU 與 AI 加速器內(nèi)部 RAM 相連,提供高效的 CPU 與 AI 加速器之間的數(shù)據(jù)通道,以便 CPU 對 AI 加速器運算結(jié)果進行二次處理。
另外,連接各個運算單元的可編程互聯(lián)矩陣架構(gòu),提供了擴展運算指令的功能,從而進一步提升硬件架構(gòu)的靈活性及可擴展性。
此外,芯片架構(gòu)方面的其余探索還包括多級多模式喚醒、從能量檢測到人類聲音檢測到喚醒詞檢測、針對語音設(shè)備及使用場景的定制化 Power Domain 等技術(shù),將芯片功耗降至最低。
如果將鏡頭從語音交互公司身上離開,拉遠至整個物聯(lián)網(wǎng)領(lǐng)域的玩家,幾乎所有的互聯(lián)網(wǎng)巨頭都進入到了視野。
今年 4 月,阿里高調(diào)進軍物聯(lián)網(wǎng)。作為電商和云計算巨頭,阿里無疑具有成為中國版「Echo」的野心。
即將赴港 IPO 的小米也在說明書中表明所募資金的30%將用于 IoT(物聯(lián)網(wǎng))、生活消費產(chǎn)品及移動互聯(lián)網(wǎng)服務(wù)(包括人工智能)等生態(tài)鏈建設(shè)。
陸奇空降百度后,DuerOS 就上升到了與 Apollo 一樣的戰(zhàn)略高度。目前,已經(jīng)廣泛賦能智能家居、可穿戴、車載和移動多個行業(yè),并與小魚在家、聯(lián)想、美的的多家企業(yè)達成生態(tài)合作。
什么類型的公司會有更有勝算?是「從軟到硬」的技術(shù)公司,還是「從硬到軟」的玩家?還是互聯(lián)網(wǎng)巨頭?這枚 AI 芯片又能為「從軟到硬」的公司贏得多大分量的勝算籌碼?
「百度是先 DuerOS,然后通過投資和并購落地。我們是通過芯片模組植入設(shè)備來落地,然后同時去滿足云端服務(wù)需求。」黃偉說,一個是自上而下,一個自下而上。
但是,端落地比云端復(fù)雜地多,也不具有很強的復(fù)制性,這可能不是巨頭擅長的。巨頭也要補足自己全棧上的短板。
不過有一點是肯定的,由于 AI 芯片的交叉學(xué)科性質(zhì),這里存在一定的技術(shù)縱深。
「一年前的技術(shù)領(lǐng)先可能被后來的人追趕上了,但是這個基礎(chǔ)上,仍然有我們向前進的空間。」李霄寒說。
所以,對于創(chuàng)業(yè)公司也好,或者比較有實力技術(shù)公司也好,在一定時間之內(nèi),它們可以與后面的公司持續(xù)性地拉開距離,并保持這一優(yōu)勢。
而在黃偉看來,現(xiàn)階段最重要的仍然是數(shù)據(jù)。
「假如我的芯片成本是 2 美金,給車廠賣 8 美金,6 美金里包含了我的利潤,包含了軟件部分?!顾f,
「現(xiàn)階段最重要的是讓中國千萬臺車植入我們的芯片,所有的數(shù)據(jù)和服務(wù)內(nèi)容都連接到我們的云端,這會是更大的價值。」
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。