我們知道,人工智能領域雖然發(fā)展迅速,但大部分機器學習的系統(tǒng)都是針對特定的學習任務存在的,例如會下棋的AlphaGo,識別人臉的圖像識別模型,識別語音語義的智能語音助手等等。這些機器學習的系統(tǒng)都只面向特定的任務,目前很少有模型能真正突破狹義機器學習的限制,有能力學習多種不同領域任務。
近日雷鋒網(wǎng)了解到,谷歌在博客上發(fā)表了文章,提出了自己研發(fā)的新機器學習系統(tǒng)MultiModel,一個有能力處理多個任務的機器學習模型。這一模型由多倫多大學計算機科學機器學習小組研究員ÅukaszKaiser,Google Brain Team高級研究科學家Aidan N. Gomez 聯(lián)合發(fā)布,以下是雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))對MultiModel文章的翻譯:
在過去十年里,深度學習的應用和表現(xiàn)都是以驚人的速度高速發(fā)展著。然而,目前這一領域的神經(jīng)網(wǎng)絡架構(gòu)對于特定的應用領域都是高度集中化的,一直有一個重要的問題仍然沒有被解決:領域之間的融合,能否有助于統(tǒng)一模型在多個領域都表現(xiàn)良好?
今天,谷歌研究院提出了MultiModel,這是一個在視覺,語言和音頻網(wǎng)絡任務中都表現(xiàn)良好的的神經(jīng)網(wǎng)絡架構(gòu),它能夠同時解決跨越多個領域的多個問題,包括圖像識別,翻譯和語音識別。盡管在Google翻譯也曾經(jīng)使用過Google多語種神經(jīng)機器翻譯系統(tǒng),在解決多任務領域有所進步,但MultiModel是首先將視覺,音頻和語言理解融入單一網(wǎng)絡的機器學習模型。
MultiModel處理多領域的靈感來自于人類大腦,人類大腦是如何將不同模式(如聲音,視覺或味覺)的感官輸入轉(zhuǎn)化為單一的表達形式,并以語言或動作的形式給予反饋的呢?通過模擬大腦對這些模式和對它們所進行的轉(zhuǎn)換,MultiModel有很多的子網(wǎng)絡,用于音頻,圖像或文本等特定形態(tài)的任務,MultiModel由編碼器,輸入/輸出混合器和解碼器組成共享模型,如下圖所示。
MultiModel結(jié)構(gòu):小型特定子網(wǎng)絡與共享編碼器,I / O混合器和解碼器一起工作。每個小花瓣代表一種形態(tài),轉(zhuǎn)化為內(nèi)在的表征(source:googleblog)
MultiModel能夠同時學習八種不同的任務:它可以檢測圖像中的物體,提供字幕,識別語音,翻譯四種語言,同時進行語法解析。給定的輸入和一個非常簡單的信號一起,該信號決定了我們要求的輸出形式。
在設計MultiModel時,很明顯有一些研究領域(視覺,語言和音頻)的某些元素,對于模型在相關(guān)任務中取得成功是及其重要的。谷歌研究院證明,這些計算原語(如卷積,注意力或?qū)<一旌蠈樱┛梢燥@著提高模型在原本應用領域的性能,同時不會影響MultiModel在其他任務中的性能。MultiModel不僅可以在多個任務聯(lián)合訓練上取得良好的表現(xiàn),而且在數(shù)量有限的任務上,也可能實際提高性能。令我們感到驚訝的是,即使這些任務來自完全不同的領域,這種現(xiàn)象(性能提高)仍然存在。例如,圖像識別任務可以提高語言任務的性能。
重要的是,雖然MultiModel沒有刷新最優(yōu)性能記錄,但它確實提供了一種新的思維,增加了團隊對神經(jīng)網(wǎng)絡中多域多任務學習的了解,以及通過引入輔助任務(auxiliary task)來解決在數(shù)據(jù)有限時訓練模型的問題。在機器學習中有一種說法:“最好的正則化方法就是引入更多的數(shù)據(jù)”;而在MultiModel中,這些數(shù)據(jù)可以通過多領域獲取,因此比以前獲取數(shù)據(jù)要更加容易。 MultiModel表明,與其他任務相結(jié)合的訓練可以獲得良好的效果,并能夠在數(shù)據(jù)有限的情況下提供模型的性能。
關(guān)于多域機器學習的許多疑問尚待研究,谷歌研究院將繼續(xù)致力于優(yōu)化Multimodel,提高它的性能。為了使這項研究能夠更快發(fā)展,MultiModel將在Tensor2Tensor庫中開發(fā)。谷歌研究院認為,對來自多個領域的數(shù)據(jù)進行聯(lián)合訓練的協(xié)同模式將成為深度學習的下一個研究方向,并將最終突破狹義訓練網(wǎng)絡的限制。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 蘋果CEO庫克盛贊MacBook Pro:樹立筆記本行業(yè)新標桿
- 性能之光 年度電競性能旗艦iQOO 13發(fā)布 3999元起
- 曝各大廠商正在籌備7000mAh電池新機:OPPO/一加或率先領銜
- 蘋果在印度的iPhone出口額激增,半年內(nèi)接近60億美元
- 蘋果M5芯片預計2025年底推出,將采用臺積電3nm制程
- 蘋果發(fā)布2024款24英寸iMac:搭載M4芯片,起售價10999元
- 蘋果iOS/iPadOS 18.1亮點更新:通話錄音功能上線,Apple Intelligence初登場
- 三季度國內(nèi)市場智能手機出貨量報告:蘋果iPhone排名第二,vivo領跑
- 蘋果或?qū)⒂诿髂臧l(fā)布致敬iMac G4設計的智能家居顯示器
- 三季度中國學習平板賣出122.6萬臺,同比大增38%
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。