污污视频网站在线看,国产美女大白屁股冒白浆,欧美AⅤ怡红院免费手机版

MIT博士生Mark Hamilton開(kāi)發(fā)的DenseAV算法，通過(guò)音頻和視頻匹配學(xué)習(xí)人類(lèi)語(yǔ)言。

MIT電氣工程與計(jì)算機(jī)科學(xué)博士生Mark Hamilton，MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員，旨在利用機(jī)器理解動(dòng)物的交流方式。為此，他首先創(chuàng)建了一個(gè)從零開(kāi)始學(xué)習(xí)人類(lèi)語(yǔ)言的系統(tǒng)。

“有趣的是，靈感來(lái)自電影《企鵝的行進(jìn)》中的一幕。一只企鵝在冰上摔倒時(shí)發(fā)出一聲呻吟，就像是在說(shuō)臟話(huà)。這時(shí)我們想，也許我們可以用音頻和視頻來(lái)學(xué)習(xí)語(yǔ)言，”Hamilton說(shuō)?！笆欠裼锌赡茏屢粋€(gè)算法整天看電視，從中找出我們?cè)谡f(shuō)什么？”

Hamilton和他的同事們訓(xùn)練了DenseAV模型，通過(guò)匹配音頻和視頻來(lái)學(xué)習(xí)語(yǔ)言。例如，當(dāng)聽(tīng)到“在350度下烤蛋糕”時(shí)，模型會(huì)尋找蛋糕或烤箱的圖像。在訓(xùn)練DenseAV時(shí)，研究人員觀察了模型在聽(tīng)到聲音時(shí)關(guān)注的像素點(diǎn)。例如，當(dāng)有人說(shuō)“狗”時(shí)，算法會(huì)立即在視頻中尋找狗。這種像素選擇過(guò)程可以揭示算法對(duì)詞語(yǔ)的理解。

更有趣的是，當(dāng)DenseAV聽(tīng)到狗叫聲時(shí)，它也會(huì)在視頻中尋找狗。這引起了研究團(tuán)隊(duì)的興趣，他們想知道算法是否能區(qū)分“狗”這個(gè)詞和狗叫聲。通過(guò)給DenseAV一個(gè)“雙側(cè)大腦”，研究發(fā)現(xiàn)，DenseAV的一側(cè)自然專(zhuān)注于語(yǔ)言，例如“狗”這個(gè)詞，另一側(cè)則專(zhuān)注于聲音，如狗叫聲。這表明DenseAV不僅學(xué)會(huì)了詞語(yǔ)的含義和聲音的位置，還學(xué)會(huì)了區(qū)分這些跨模態(tài)的聯(lián)系，而無(wú)需人工干預(yù)或書(shū)面語(yǔ)言知識(shí)。

Hamilton表示，DenseAV可以應(yīng)用于學(xué)習(xí)互聯(lián)網(wǎng)上發(fā)布的大量視頻內(nèi)容，如教學(xué)視頻。另一個(gè)令人興奮的應(yīng)用是理解沒(méi)有書(shū)面形式的語(yǔ)言，如海豚或鯨魚(yú)的交流。最終，研究團(tuán)隊(duì)希望這種方法能用于發(fā)現(xiàn)其他信號(hào)對(duì)之間的模式，比如地震聲音和地質(zhì)學(xué)之間的關(guān)系。

研究團(tuán)隊(duì)面臨的主要挑戰(zhàn)是無(wú)需任何文本輸入學(xué)習(xí)語(yǔ)言。他們的目標(biāo)是從零開(kāi)始重新發(fā)現(xiàn)語(yǔ)言的含義，避免使用預(yù)訓(xùn)練的語(yǔ)言模型。這種方法受到兒童通過(guò)觀察和傾聽(tīng)環(huán)境來(lái)學(xué)習(xí)語(yǔ)言的啟發(fā)。

為了實(shí)現(xiàn)這一目標(biāo)，DenseAV使用了兩個(gè)主要組件分別處理音頻和視頻數(shù)據(jù)。這種分離使得算法無(wú)法作弊，迫使其識(shí)別物體，并為音頻和視頻信號(hào)創(chuàng)建詳細(xì)而有意義的特征。DenseAV通過(guò)比較音頻和視頻信號(hào)對(duì)來(lái)學(xué)習(xí)哪些信號(hào)匹配，哪些信號(hào)不匹配。這種稱(chēng)為對(duì)比學(xué)習(xí)的方法不需要標(biāo)注的例子，使DenseAV能夠自行找出語(yǔ)言的重要預(yù)測(cè)模式。

DenseAV和以前算法的主要區(qū)別在于，以前的方法只關(guān)注聲音和圖像之間的單一相似性。而DenseAV算法搜索并聚合音頻片段和圖像像素之間的所有可能匹配。這不僅提高了性能，還允許團(tuán)隊(duì)精確定位聲音。

研究人員在包含200萬(wàn)個(gè)YouTube視頻的AudioSet上訓(xùn)練了DenseAV，并創(chuàng)建了新數(shù)據(jù)集來(lái)測(cè)試模型的鏈接聲音和圖像的能力。在這些測(cè)試中，DenseAV在識(shí)別對(duì)象名稱(chēng)和聲音的任務(wù)中優(yōu)于其他頂尖模型，證明了其有效性。

由于涉及的數(shù)據(jù)量巨大，項(xiàng)目完成耗時(shí)約一年。團(tuán)隊(duì)表示，轉(zhuǎn)向大規(guī)模變壓器架構(gòu)帶來(lái)了挑戰(zhàn)，因?yàn)檫@些模型很容易忽視細(xì)節(jié)。

未來(lái)，團(tuán)隊(duì)旨在創(chuàng)建能夠從大量視頻或音頻數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)，這對(duì)于新的領(lǐng)域至關(guān)重要，因?yàn)檫@些領(lǐng)域可能只有大量的單一模式數(shù)據(jù)。團(tuán)隊(duì)還計(jì)劃通過(guò)使用更大的架構(gòu)，并可能整合語(yǔ)言模型的知識(shí)來(lái)提高性能。

“識(shí)別和分割圖像中的視覺(jué)對(duì)象，以及音頻記錄中的環(huán)境聲音和口語(yǔ)詞匯，本身就是各自的難題。DenseAV在通過(guò)視覺(jué)和聲音觀察世界的過(guò)程中，同時(shí)解決這些任務(wù)方面取得了重大進(jìn)展，”未參與此工作的德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)助理教授David Harwath說(shuō)?！霸撃Ｐ蛯?duì)所說(shuō)的具體語(yǔ)言沒(méi)有任何假設(shè)，因此原則上可以從任何語(yǔ)言的數(shù)據(jù)中學(xué)習(xí)。通過(guò)擴(kuò)展到數(shù)千或數(shù)百萬(wàn)小時(shí)的多種語(yǔ)言視頻數(shù)據(jù)，看看DenseAV能學(xué)到什么，將是一件令人興奮的事?！?/p>

論文的其他作者包括牛津大學(xué)計(jì)算機(jī)視覺(jué)工程教授Andrew Zisserman，Google AI感知研究員John R. Hershey，以及MIT電氣工程與計(jì)算機(jī)科學(xué)教授、CSAIL首席研究員William T. Freeman。他們的研究得到了美國(guó)國(guó)家科學(xué)基金會(huì)、皇家學(xué)會(huì)研究教授職位和EPSRC視覺(jué)AI項(xiàng)目的部分支持。這項(xiàng)工作將在本月的IEEE/CVF計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上展示。

本文譯自 MIT CSAIL，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）