小米AI算法能力登頂聲音識(shí)別領(lǐng)域高峰,AI全面賦能業(yè)務(wù)再進(jìn)一步

9月13日消息,近日,小米自研聲音識(shí)別算法取得最新進(jìn)展,算法模型領(lǐng)先其他機(jī)構(gòu),性能國際排名第一。小米是在 Google 發(fā)布的 AudioSet 音頻標(biāo)記任務(wù)中獲得的這一突破。

它是音頻標(biāo)記任務(wù)影響力最大的數(shù)據(jù)集,被認(rèn)為是聲音領(lǐng)域的 ImageNet (注:計(jì)算機(jī)視覺領(lǐng)域最著名的數(shù)據(jù)集,由著名學(xué)者李飛飛等主持發(fā)布),權(quán)威性頗高。

Google 將 AudioSet 數(shù)據(jù)集分為三個(gè)子集,前兩個(gè)子集用于訓(xùn)練,被合并稱為 “AudioSet-2M”。正是在這個(gè)合并后的訓(xùn)練集中,小米的聲音識(shí)別算法模型首次在業(yè)界突破了50 mAP,刷新了音頻標(biāo)記技術(shù)指標(biāo),成為截至目前性能最好的模型。

此外,小米還發(fā)布了一個(gè) Mini 版模型,適合資源受限的場(chǎng)景。該模型的參數(shù)量被壓縮到了原模型的約九分之一,遠(yuǎn)小于其他機(jī)構(gòu)的模型,但性能卻優(yōu)于其他所有機(jī)構(gòu)。

這項(xiàng)技術(shù)的突破意味著小米的聲音識(shí)別算法能力再次精進(jìn),小米的眾多智能硬件設(shè)備應(yīng)用此項(xiàng)技術(shù)后,可以更敏銳地捕捉和識(shí)別環(huán)境聲音,大幅提升硬件的智能化程度,從而為用戶創(chuàng)造更加便捷的智能生活體驗(yàn)。

不僅如此,小米聲音識(shí)別算法下的音頻標(biāo)記技術(shù)能力,還為業(yè)界的前沿研究提供了巨大的技術(shù)價(jià)值,有力推動(dòng)了相關(guān)研發(fā)進(jìn)程。

(小米自研聲音識(shí)別算法性能國際排名第一)

小米算法應(yīng)用場(chǎng)景廣泛,AI賦能惠及普通大眾

小米此次精進(jìn)后的聲音識(shí)別算法,具有極高的應(yīng)用價(jià)值。它能夠廣泛應(yīng)用于小米的智能設(shè)備中,大幅提升用戶的智能生活體驗(yàn)。具體來說,音頻標(biāo)記算法能夠識(shí)別廣泛的環(huán)境聲音,比如嬰兒的啼哭聲、動(dòng)物叫聲、汽車引擎聲、爆炸聲、煙霧警報(bào)、門鈴聲、水流聲等,并讓環(huán)境中的聲音以文字等模態(tài)表達(dá),讓聲音被“看”見。這可以讓硬件設(shè)備更加智能,為用戶帶去更高效和更準(zhǔn)確的聲音識(shí)別體驗(yàn)。

以搭載在小米手機(jī)中的“小米聞聲”功能來說,它可以監(jiān)測(cè) 14 種重要的環(huán)境音,包括火警、嬰兒啼哭、燒水壺聲等,并以手機(jī)通知欄進(jìn)行文字推送。這讓聽力障礙用戶得以“看見”生活中的聲音,與普通人一樣享受智能生活的便捷。小米手環(huán)也可以同步顯示和接收這樣的聲音信息。

智能家居設(shè)備上的應(yīng)用則更加廣泛。小米的聲音識(shí)別算法已經(jīng)應(yīng)用于眾多的智能家居設(shè)備中,比如米家攝像頭的寶寶哭聲監(jiān)測(cè)功能,它能在監(jiān)測(cè)到寶寶哭聲的時(shí)候,實(shí)時(shí)向用戶手機(jī)推送通知。

Xiaomi Sound 音箱也搭載了聲音識(shí)別功能,它能夠識(shí)別家用報(bào)警器、嬰兒啼哭、火警、流水、貓叫、狗叫等六種用戶關(guān)心的家居環(huán)境聲音。小米健康 APP 的睡眠鼾聲監(jiān)測(cè),則可以幫助跟蹤用戶睡眠時(shí)的鼾聲夢(mèng)話。

此外,針對(duì)家庭場(chǎng)景,小米還對(duì)音箱環(huán)境音的監(jiān)測(cè)做了特別適配。比如為了避免一開水龍頭就觸發(fā)通知,打擾用戶,研發(fā)人員將水流聲的識(shí)別提醒條件改為一分鐘之內(nèi)多次監(jiān)測(cè)到。

這項(xiàng)算法技術(shù)還廣泛應(yīng)用于小米機(jī)器人的研發(fā)中,大幅提升了機(jī)器人的感知能力。小米歷時(shí)10個(gè)月全棧自研的第一代全尺寸人形機(jī)器人 CyberOne,可以識(shí)別 85 種環(huán)境聲音,能夠通過聽覺感知 6 類、45 種人類情緒。而小米第二代仿生四足機(jī)器人 CyberDog 2 則可以識(shí)別 38 種環(huán)境聲音,實(shí)現(xiàn)更強(qiáng)大的動(dòng)態(tài)響應(yīng)能力。

小米強(qiáng)大的 AIoT 平臺(tái)生態(tài),為這項(xiàng)算法技術(shù)的應(yīng)用提供了廣闊的空間,這也是小米技術(shù)研發(fā)的先天優(yōu)勢(shì),有豐富的場(chǎng)景推動(dòng)技術(shù)邁向應(yīng)用層面,讓科技成果真正惠及普通大眾。

目前,小米的聲學(xué)語音團(tuán)隊(duì)已將自研聲學(xué)語音技術(shù)全面應(yīng)用于小米手機(jī)、音箱、電視、耳機(jī)、手表、機(jī)器人等 79 個(gè)品類,共計(jì) 5000多款智能產(chǎn)品中。而小愛同學(xué)的月活躍用戶數(shù)量則達(dá)到了1.15 億,是世界上最忙的語音助手之一。

長期深耕底層技術(shù),小米推動(dòng)行業(yè)前沿探索向前邁進(jìn)

小米自研聲音識(shí)別算法的突破,還為業(yè)界的前沿研究提供了巨大的技術(shù)價(jià)值。目前,業(yè)內(nèi)已知的相關(guān)研究成果幾乎都應(yīng)用到了預(yù)訓(xùn)練的音頻標(biāo)記模型,用作音頻編碼,為音頻領(lǐng)域的研究提供關(guān)鍵的音頻信息提取能力。

小米此次在音頻標(biāo)記任務(wù)上的出色表現(xiàn),不僅充分彰顯了技術(shù)實(shí)力,更直接推動(dòng)了音頻領(lǐng)域前沿探索向前邁進(jìn)。

這是小米又一次展露出深耕底層技術(shù)的決心和實(shí)力。今年8月,小米對(duì)其科技戰(zhàn)略進(jìn)行了升級(jí),提出“選擇對(duì)人類文明有長期價(jià)值的技術(shù)領(lǐng)域,堅(jiān)持長期投入”的科技理念,并指出了具體路徑和原則,即深耕底層技術(shù),長期持續(xù)投入,軟硬深度融合,AI全面賦能。

事實(shí)上,歷經(jīng)十三年的發(fā)展,小米的技術(shù)研發(fā)已經(jīng)從應(yīng)用層面更多轉(zhuǎn)向了底層技術(shù)層面。其中 AI 領(lǐng)域是小米長期持續(xù)投入的底層賽道之一。據(jù)悉,小米自2016年組建AI團(tuán)隊(duì)以來,人工智能團(tuán)隊(duì)經(jīng)過7年6次擴(kuò)展,人員規(guī)模已達(dá)3000多人。

同時(shí),小米 AI 技術(shù)能力也已經(jīng)覆蓋了視覺、聲學(xué)、語音、NLP、知識(shí)圖譜、機(jī)器學(xué)習(xí)、大模型、多模態(tài)等眾多方向,并全面賦能了手機(jī)、汽車、AIoT、機(jī)器人等眾多業(yè)務(wù)板塊。

2023年4月,小米還正式組建了 AI 大模型團(tuán)隊(duì),全面擁抱大模型,目前陸續(xù)有了一些應(yīng)用嘗試。其中第一個(gè)應(yīng)用大模型,就是將智能語音助理小愛同學(xué)升級(jí)了大模型版本,并開啟邀請(qǐng)測(cè)試。這次聲學(xué)語音團(tuán)隊(duì)刷新行業(yè)音頻標(biāo)記技術(shù)指標(biāo),再次證明了小米強(qiáng)大的AI實(shí)力。

從更全局的視野看,小米的技術(shù)體系已蔚然成林,研發(fā)布局進(jìn)入了12個(gè)技術(shù)領(lǐng)域,包括5G 移動(dòng)通信技術(shù)、大數(shù)據(jù)、云計(jì)算及人工智能,同時(shí)基于智能制造,進(jìn)入機(jī)器人、無人工廠、智能電動(dòng)汽車等,總體細(xì)分領(lǐng)域達(dá)99項(xiàng)。小米的技術(shù)研發(fā)還有持續(xù)的資金保障,未來五年(2022-2026)研發(fā)投入將超過1000億元。

小米還在持續(xù)通過多個(gè)層面的努力提升科技創(chuàng)新能力。9月11日,小米正式成立集團(tuán)科協(xié)暨院士專家工作站,攜手更多力量、匯聚更多資源進(jìn)行關(guān)鍵核心技術(shù)攻關(guān),加強(qiáng)基礎(chǔ)性、前沿性研究和成果轉(zhuǎn)化。

(9月11日,小米集團(tuán)科協(xié)成立暨院士專家工作站授牌儀式在京舉行)

中國科協(xié)黨組成員、書記處書記殷皓在當(dāng)天的授牌儀式活動(dòng)中表示,小米集團(tuán)科協(xié)的成立,體現(xiàn)了小米集團(tuán)高管對(duì)科技創(chuàng)新工作的高度重視。他指出,期待小米集團(tuán)科協(xié)充分發(fā)揮資源優(yōu)勢(shì),大力普及科學(xué)知識(shí),拓展開放合作,共同營造具有全球競(jìng)爭力的開放創(chuàng)新生態(tài)。

中國工程院院士丁文華成為小米院士專家工作站的首位進(jìn)站院士。他指出,在以手機(jī)鏡頭為代表的成像技術(shù)領(lǐng)域,小米實(shí)現(xiàn)了光學(xué)鏡頭小型化的重大突破,是行業(yè)的佼佼者。

小米已經(jīng)牽頭成立了智能圖像處理北京市工程研究中心,他希望未來能夠努力升級(jí)為國家工程研究中心。他還表示,期待與小米科技工作者團(tuán)隊(duì)共同開展關(guān)鍵技術(shù)攻關(guān),推動(dòng)行業(yè)向前發(fā)展。

在新的科技戰(zhàn)略指引下,小米正朝向著世界科技巨頭的目標(biāo)銳意進(jìn)取。而在歷經(jīng)十三年的豐厚積淀,又匯聚起強(qiáng)大外部科研力量后,小米勢(shì)必迸發(fā)出更加強(qiáng)勁的創(chuàng)新活力。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-09-13
小米AI算法能力登頂聲音識(shí)別領(lǐng)域高峰,AI全面賦能業(yè)務(wù)再進(jìn)一步
算法模型領(lǐng)先其他機(jī)構(gòu)。

長按掃碼 閱讀全文