MIT博士生Mark Hamilton開(kāi)發(fā)的DenseAV算法,通過(guò)音頻和視頻匹配學(xué)習(xí)人類語(yǔ)言。
MIT電氣工程與計(jì)算機(jī)科學(xué)博士生Mark Hamilton,MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員,旨在利用機(jī)器理解動(dòng)物的交流方式。為此,他首先創(chuàng)建了一個(gè)從零開(kāi)始學(xué)習(xí)人類語(yǔ)言的系統(tǒng)。
“有趣的是,靈感來(lái)自電影《企鵝的行進(jìn)》中的一幕。一只企鵝在冰上摔倒時(shí)發(fā)出一聲呻吟,就像是在說(shuō)臟話。這時(shí)我們想,也許我們可以用音頻和視頻來(lái)學(xué)習(xí)語(yǔ)言,”Hamilton說(shuō)?!笆欠裼锌赡茏屢粋€(gè)算法整天看電視,從中找出我們?cè)谡f(shuō)什么?”
Hamilton和他的同事們訓(xùn)練了DenseAV模型,通過(guò)匹配音頻和視頻來(lái)學(xué)習(xí)語(yǔ)言。例如,當(dāng)聽(tīng)到“在350度下烤蛋糕”時(shí),模型會(huì)尋找蛋糕或烤箱的圖像。在訓(xùn)練DenseAV時(shí),研究人員觀察了模型在聽(tīng)到聲音時(shí)關(guān)注的像素點(diǎn)。例如,當(dāng)有人說(shuō)“狗”時(shí),算法會(huì)立即在視頻中尋找狗。這種像素選擇過(guò)程可以揭示算法對(duì)詞語(yǔ)的理解。
更有趣的是,當(dāng)DenseAV聽(tīng)到狗叫聲時(shí),它也會(huì)在視頻中尋找狗。這引起了研究團(tuán)隊(duì)的興趣,他們想知道算法是否能區(qū)分“狗”這個(gè)詞和狗叫聲。通過(guò)給DenseAV一個(gè)“雙側(cè)大腦”,研究發(fā)現(xiàn),DenseAV的一側(cè)自然專注于語(yǔ)言,例如“狗”這個(gè)詞,另一側(cè)則專注于聲音,如狗叫聲。這表明DenseAV不僅學(xué)會(huì)了詞語(yǔ)的含義和聲音的位置,還學(xué)會(huì)了區(qū)分這些跨模態(tài)的聯(lián)系,而無(wú)需人工干預(yù)或書(shū)面語(yǔ)言知識(shí)。
Hamilton表示,DenseAV可以應(yīng)用于學(xué)習(xí)互聯(lián)網(wǎng)上發(fā)布的大量視頻內(nèi)容,如教學(xué)視頻。另一個(gè)令人興奮的應(yīng)用是理解沒(méi)有書(shū)面形式的語(yǔ)言,如海豚或鯨魚(yú)的交流。最終,研究團(tuán)隊(duì)希望這種方法能用于發(fā)現(xiàn)其他信號(hào)對(duì)之間的模式,比如地震聲音和地質(zhì)學(xué)之間的關(guān)系。
研究團(tuán)隊(duì)面臨的主要挑戰(zhàn)是無(wú)需任何文本輸入學(xué)習(xí)語(yǔ)言。他們的目標(biāo)是從零開(kāi)始重新發(fā)現(xiàn)語(yǔ)言的含義,避免使用預(yù)訓(xùn)練的語(yǔ)言模型。這種方法受到兒童通過(guò)觀察和傾聽(tīng)環(huán)境來(lái)學(xué)習(xí)語(yǔ)言的啟發(fā)。
為了實(shí)現(xiàn)這一目標(biāo),DenseAV使用了兩個(gè)主要組件分別處理音頻和視頻數(shù)據(jù)。這種分離使得算法無(wú)法作弊,迫使其識(shí)別物體,并為音頻和視頻信號(hào)創(chuàng)建詳細(xì)而有意義的特征。DenseAV通過(guò)比較音頻和視頻信號(hào)對(duì)來(lái)學(xué)習(xí)哪些信號(hào)匹配,哪些信號(hào)不匹配。這種稱為對(duì)比學(xué)習(xí)的方法不需要標(biāo)注的例子,使DenseAV能夠自行找出語(yǔ)言的重要預(yù)測(cè)模式。
DenseAV和以前算法的主要區(qū)別在于,以前的方法只關(guān)注聲音和圖像之間的單一相似性。而DenseAV算法搜索并聚合音頻片段和圖像像素之間的所有可能匹配。這不僅提高了性能,還允許團(tuán)隊(duì)精確定位聲音。
研究人員在包含200萬(wàn)個(gè)YouTube視頻的AudioSet上訓(xùn)練了DenseAV,并創(chuàng)建了新數(shù)據(jù)集來(lái)測(cè)試模型的鏈接聲音和圖像的能力。在這些測(cè)試中,DenseAV在識(shí)別對(duì)象名稱和聲音的任務(wù)中優(yōu)于其他頂尖模型,證明了其有效性。
由于涉及的數(shù)據(jù)量巨大,項(xiàng)目完成耗時(shí)約一年。團(tuán)隊(duì)表示,轉(zhuǎn)向大規(guī)模變壓器架構(gòu)帶來(lái)了挑戰(zhàn),因?yàn)檫@些模型很容易忽視細(xì)節(jié)。
未來(lái),團(tuán)隊(duì)旨在創(chuàng)建能夠從大量視頻或音頻數(shù)據(jù)中學(xué)習(xí)的系統(tǒng),這對(duì)于新的領(lǐng)域至關(guān)重要,因?yàn)檫@些領(lǐng)域可能只有大量的單一模式數(shù)據(jù)。團(tuán)隊(duì)還計(jì)劃通過(guò)使用更大的架構(gòu),并可能整合語(yǔ)言模型的知識(shí)來(lái)提高性能。
“識(shí)別和分割圖像中的視覺(jué)對(duì)象,以及音頻記錄中的環(huán)境聲音和口語(yǔ)詞匯,本身就是各自的難題。DenseAV在通過(guò)視覺(jué)和聲音觀察世界的過(guò)程中,同時(shí)解決這些任務(wù)方面取得了重大進(jìn)展,”未參與此工作的德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)助理教授David Harwath說(shuō)?!霸撃P蛯?duì)所說(shuō)的具體語(yǔ)言沒(méi)有任何假設(shè),因此原則上可以從任何語(yǔ)言的數(shù)據(jù)中學(xué)習(xí)。通過(guò)擴(kuò)展到數(shù)千或數(shù)百萬(wàn)小時(shí)的多種語(yǔ)言視頻數(shù)據(jù),看看DenseAV能學(xué)到什么,將是一件令人興奮的事?!?/p>
論文的其他作者包括牛津大學(xué)計(jì)算機(jī)視覺(jué)工程教授Andrew Zisserman,Google AI感知研究員John R. Hershey,以及MIT電氣工程與計(jì)算機(jī)科學(xué)教授、CSAIL首席研究員William T. Freeman。他們的研究得到了美國(guó)國(guó)家科學(xué)基金會(huì)、皇家學(xué)會(huì)研究教授職位和EPSRC視覺(jué)AI項(xiàng)目的部分支持。這項(xiàng)工作將在本月的IEEE/CVF計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上展示。
本文譯自 MIT CSAIL,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )