新算法通過觀看視頻發(fā)現語言

MIT博士生Mark Hamilton開發(fā)的DenseAV算法,通過音頻和視頻匹配學習人類語言。

MIT電氣工程與計算機科學博士生Mark Hamilton,MIT計算機科學與人工智能實驗室(CSAIL)成員,旨在利用機器理解動物的交流方式。為此,他首先創(chuàng)建了一個從零開始學習人類語言的系統(tǒng)。

“有趣的是,靈感來自電影《企鵝的行進》中的一幕。一只企鵝在冰上摔倒時發(fā)出一聲呻吟,就像是在說臟話。這時我們想,也許我們可以用音頻和視頻來學習語言,”Hamilton說?!笆欠裼锌赡茏屢粋€算法整天看電視,從中找出我們在說什么?”

Hamilton和他的同事們訓練了DenseAV模型,通過匹配音頻和視頻來學習語言。例如,當聽到“在350度下烤蛋糕”時,模型會尋找蛋糕或烤箱的圖像。在訓練DenseAV時,研究人員觀察了模型在聽到聲音時關注的像素點。例如,當有人說“狗”時,算法會立即在視頻中尋找狗。這種像素選擇過程可以揭示算法對詞語的理解。

更有趣的是,當DenseAV聽到狗叫聲時,它也會在視頻中尋找狗。這引起了研究團隊的興趣,他們想知道算法是否能區(qū)分“狗”這個詞和狗叫聲。通過給DenseAV一個“雙側大腦”,研究發(fā)現,DenseAV的一側自然專注于語言,例如“狗”這個詞,另一側則專注于聲音,如狗叫聲。這表明DenseAV不僅學會了詞語的含義和聲音的位置,還學會了區(qū)分這些跨模態(tài)的聯系,而無需人工干預或書面語言知識。

Hamilton表示,DenseAV可以應用于學習互聯網上發(fā)布的大量視頻內容,如教學視頻。另一個令人興奮的應用是理解沒有書面形式的語言,如海豚或鯨魚的交流。最終,研究團隊希望這種方法能用于發(fā)現其他信號對之間的模式,比如地震聲音和地質學之間的關系。

研究團隊面臨的主要挑戰(zhàn)是無需任何文本輸入學習語言。他們的目標是從零開始重新發(fā)現語言的含義,避免使用預訓練的語言模型。這種方法受到兒童通過觀察和傾聽環(huán)境來學習語言的啟發(fā)。

為了實現這一目標,DenseAV使用了兩個主要組件分別處理音頻和視頻數據。這種分離使得算法無法作弊,迫使其識別物體,并為音頻和視頻信號創(chuàng)建詳細而有意義的特征。DenseAV通過比較音頻和視頻信號對來學習哪些信號匹配,哪些信號不匹配。這種稱為對比學習的方法不需要標注的例子,使DenseAV能夠自行找出語言的重要預測模式。

DenseAV和以前算法的主要區(qū)別在于,以前的方法只關注聲音和圖像之間的單一相似性。而DenseAV算法搜索并聚合音頻片段和圖像像素之間的所有可能匹配。這不僅提高了性能,還允許團隊精確定位聲音。

研究人員在包含200萬個YouTube視頻的AudioSet上訓練了DenseAV,并創(chuàng)建了新數據集來測試模型的鏈接聲音和圖像的能力。在這些測試中,DenseAV在識別對象名稱和聲音的任務中優(yōu)于其他頂尖模型,證明了其有效性。

由于涉及的數據量巨大,項目完成耗時約一年。團隊表示,轉向大規(guī)模變壓器架構帶來了挑戰(zhàn),因為這些模型很容易忽視細節(jié)。

未來,團隊旨在創(chuàng)建能夠從大量視頻或音頻數據中學習的系統(tǒng),這對于新的領域至關重要,因為這些領域可能只有大量的單一模式數據。團隊還計劃通過使用更大的架構,并可能整合語言模型的知識來提高性能。

“識別和分割圖像中的視覺對象,以及音頻記錄中的環(huán)境聲音和口語詞匯,本身就是各自的難題。DenseAV在通過視覺和聲音觀察世界的過程中,同時解決這些任務方面取得了重大進展,”未參與此工作的德克薩斯大學奧斯汀分校計算機科學助理教授David Harwath說?!霸撃P蛯λf的具體語言沒有任何假設,因此原則上可以從任何語言的數據中學習。通過擴展到數千或數百萬小時的多種語言視頻數據,看看DenseAV能學到什么,將是一件令人興奮的事?!?/p>

論文的其他作者包括牛津大學計算機視覺工程教授Andrew Zisserman,Google AI感知研究員John R. Hershey,以及MIT電氣工程與計算機科學教授、CSAIL首席研究員William T. Freeman。他們的研究得到了美國國家科學基金會、皇家學會研究教授職位和EPSRC視覺AI項目的部分支持。這項工作將在本月的IEEE/CVF計算機視覺與模式識別會議上展示。

本文譯自 MIT CSAIL,由 BALI 編輯發(fā)布。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2024-06-17
新算法通過觀看視頻發(fā)現語言
MIT博士生Mark Hamilton開發(fā)的DenseAV算法,通過音頻和視頻匹配學習人類語言。

長按掃碼 閱讀全文