我們知道,人工智能領(lǐng)域雖然發(fā)展迅速,但大部分機(jī)器學(xué)習(xí)的系統(tǒng)都是針對(duì)特定的學(xué)習(xí)任務(wù)存在的,例如會(huì)下棋的AlphaGo,識(shí)別人臉的圖像識(shí)別模型,識(shí)別語(yǔ)音語(yǔ)義的智能語(yǔ)音助手等等。這些機(jī)器學(xué)習(xí)的系統(tǒng)都只面向特定的任務(wù),目前很少有模型能真正突破狹義機(jī)器學(xué)習(xí)的限制,有能力學(xué)習(xí)多種不同領(lǐng)域任務(wù)。
近日雷鋒網(wǎng)了解到,谷歌在博客上發(fā)表了文章,提出了自己研發(fā)的新機(jī)器學(xué)習(xí)系統(tǒng)MultiModel,一個(gè)有能力處理多個(gè)任務(wù)的機(jī)器學(xué)習(xí)模型。這一模型由多倫多大學(xué)計(jì)算機(jī)科學(xué)機(jī)器學(xué)習(xí)小組研究員ÅukaszKaiser,Google Brain Team高級(jí)研究科學(xué)家Aidan N. Gomez 聯(lián)合發(fā)布,以下是雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))對(duì)MultiModel文章的翻譯:
在過去十年里,深度學(xué)習(xí)的應(yīng)用和表現(xiàn)都是以驚人的速度高速發(fā)展著。然而,目前這一領(lǐng)域的神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)于特定的應(yīng)用領(lǐng)域都是高度集中化的,一直有一個(gè)重要的問題仍然沒有被解決:領(lǐng)域之間的融合,能否有助于統(tǒng)一模型在多個(gè)領(lǐng)域都表現(xiàn)良好?
今天,谷歌研究院提出了MultiModel,這是一個(gè)在視覺,語(yǔ)言和音頻網(wǎng)絡(luò)任務(wù)中都表現(xiàn)良好的的神經(jīng)網(wǎng)絡(luò)架構(gòu),它能夠同時(shí)解決跨越多個(gè)領(lǐng)域的多個(gè)問題,包括圖像識(shí)別,翻譯和語(yǔ)音識(shí)別。盡管在Google翻譯也曾經(jīng)使用過Google多語(yǔ)種神經(jīng)機(jī)器翻譯系統(tǒng),在解決多任務(wù)領(lǐng)域有所進(jìn)步,但MultiModel是首先將視覺,音頻和語(yǔ)言理解融入單一網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型。
MultiModel處理多領(lǐng)域的靈感來自于人類大腦,人類大腦是如何將不同模式(如聲音,視覺或味覺)的感官輸入轉(zhuǎn)化為單一的表達(dá)形式,并以語(yǔ)言或動(dòng)作的形式給予反饋的呢?通過模擬大腦對(duì)這些模式和對(duì)它們所進(jìn)行的轉(zhuǎn)換,MultiModel有很多的子網(wǎng)絡(luò),用于音頻,圖像或文本等特定形態(tài)的任務(wù),MultiModel由編碼器,輸入/輸出混合器和解碼器組成共享模型,如下圖所示。
MultiModel結(jié)構(gòu):小型特定子網(wǎng)絡(luò)與共享編碼器,I / O混合器和解碼器一起工作。每個(gè)小花瓣代表一種形態(tài),轉(zhuǎn)化為內(nèi)在的表征(source:googleblog)
MultiModel能夠同時(shí)學(xué)習(xí)八種不同的任務(wù):它可以檢測(cè)圖像中的物體,提供字幕,識(shí)別語(yǔ)音,翻譯四種語(yǔ)言,同時(shí)進(jìn)行語(yǔ)法解析。給定的輸入和一個(gè)非常簡(jiǎn)單的信號(hào)一起,該信號(hào)決定了我們要求的輸出形式。
在設(shè)計(jì)MultiModel時(shí),很明顯有一些研究領(lǐng)域(視覺,語(yǔ)言和音頻)的某些元素,對(duì)于模型在相關(guān)任務(wù)中取得成功是及其重要的。谷歌研究院證明,這些計(jì)算原語(yǔ)(如卷積,注意力或?qū)<一旌蠈樱┛梢燥@著提高模型在原本應(yīng)用領(lǐng)域的性能,同時(shí)不會(huì)影響MultiModel在其他任務(wù)中的性能。MultiModel不僅可以在多個(gè)任務(wù)聯(lián)合訓(xùn)練上取得良好的表現(xiàn),而且在數(shù)量有限的任務(wù)上,也可能實(shí)際提高性能。令我們感到驚訝的是,即使這些任務(wù)來自完全不同的領(lǐng)域,這種現(xiàn)象(性能提高)仍然存在。例如,圖像識(shí)別任務(wù)可以提高語(yǔ)言任務(wù)的性能。
重要的是,雖然MultiModel沒有刷新最優(yōu)性能記錄,但它確實(shí)提供了一種新的思維,增加了團(tuán)隊(duì)對(duì)神經(jīng)網(wǎng)絡(luò)中多域多任務(wù)學(xué)習(xí)的了解,以及通過引入輔助任務(wù)(auxiliary task)來解決在數(shù)據(jù)有限時(shí)訓(xùn)練模型的問題。在機(jī)器學(xué)習(xí)中有一種說法:“最好的正則化方法就是引入更多的數(shù)據(jù)”;而在MultiModel中,這些數(shù)據(jù)可以通過多領(lǐng)域獲取,因此比以前獲取數(shù)據(jù)要更加容易。 MultiModel表明,與其他任務(wù)相結(jié)合的訓(xùn)練可以獲得良好的效果,并能夠在數(shù)據(jù)有限的情況下提供模型的性能。
關(guān)于多域機(jī)器學(xué)習(xí)的許多疑問尚待研究,谷歌研究院將繼續(xù)致力于優(yōu)化Multimodel,提高它的性能。為了使這項(xiàng)研究能夠更快發(fā)展,MultiModel將在Tensor2Tensor庫(kù)中開發(fā)。谷歌研究院認(rèn)為,對(duì)來自多個(gè)領(lǐng)域的數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練的協(xié)同模式將成為深度學(xué)習(xí)的下一個(gè)研究方向,并將最終突破狹義訓(xùn)練網(wǎng)絡(luò)的限制。
- 小米王昭程揭秘:米家健康秤如何助力運(yùn)動(dòng)健康A(chǔ)pp,實(shí)現(xiàn)全方位數(shù)據(jù)互聯(lián)
- 小米盧偉冰實(shí)測(cè)米家空調(diào)極限性能:挑戰(zhàn)-35℃低溫,新中央空調(diào)將挑戰(zhàn)頭部品牌!
- 小米米家洗衣機(jī)首次全鏈路 OTA 升級(jí),雙區(qū)洗雙洗烘新體驗(yàn)引爆市場(chǎng)
- 國(guó)產(chǎn)NAS新寵飛牛私有云:AI智能相冊(cè)功能驚艷,人臉識(shí)別、事物場(chǎng)景分類助力高效管理
- 索菲亞智能整家全新升級(jí),米家App賦能,智能生活再升級(jí)
- 中央政策助力新能源汽車等綠色智能產(chǎn)品下鄉(xiāng),推動(dòng)農(nóng)村消費(fèi)升級(jí)
- Meta Orion 豪門夢(mèng)碎:最強(qiáng)版本2027亮相,眼鏡內(nèi)置攝像頭,AR眼鏡新時(shí)代何時(shí)開啟?
- 蘋果在中國(guó)市場(chǎng)遭遇重大挫折:2024年第四季度銷量大跌18%,被華為和小米超越
- 跨生態(tài)互聯(lián)新篇章:綠米Aqara Matter高階橋接功能引領(lǐng)智能家居新潮流
- 極空間NAS新功能曝光:文檔同步2.0、多端播放器,辦公利器升級(jí)版等你來體驗(yàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。