123,123,123

原標題：超越人類的多任務(wù)學習算法，將給AI帶來什么？

過去十幾年，人類可以說是在機器智能面前節(jié)節(jié)退敗，屢敗屢戰(zhàn)。而多任務(wù)處理（multi-tasking），幾乎是為數(shù)不多可以讓我們“天生驕傲”的能力了。

比如，人可以同時打開8個網(wǎng)站、3份文檔和一個Facebook，即使正在專心處理其中一件事，只要突然收到一條回復或更新提醒，也能夠快速安排的明明白白。

對機器而言，要在同一時間完成這樣的任務(wù)顯然有點難。因此，多任務(wù)處理一直被視作是人類所獨有的的技能點。

然而，這個優(yōu)勢似乎也快要失守了。

Deepmind一項最新的研究成果顯示，借助其開發(fā)的PopArt方法來訓練深度學習引擎，能夠培養(yǎng)出可進行多任務(wù)處理的智能體，并且在實際的表現(xiàn)中超越了人類！

讓機器“一心多用”的PopArt，究竟是如何工作的？

關(guān)于多任務(wù)學習的研究已經(jīng)持續(xù)了大概20年之久，盡管一直沒能像單任務(wù)學習（如AlphaGo）那樣做出什么奪人眼球的成果，但顯然更符合我們對“機器模擬人腦”的想象。

畢竟在現(xiàn)實生活中，各種“學習任務(wù)”之間都有著千絲萬縷的聯(lián)系，比如當人在玩電子游戲時，圖像識別、任務(wù)理解、執(zhí)行操作并追求收益最大化，這些都可以在瞬間完成的操作，并且在任何一個游戲中都可以如法炮制，而機器目前只能通過分解成單個任務(wù)去學習并處理。

怎樣指導機器在同一時間完成多個復雜任務(wù)，Deepmind提出了一個新的方法“PopArt”，據(jù)說可以讓機器在多任務(wù)處理上的成績超越人類。

如名字所示，PopArt（Preserving Outputs Precisely while Adaptively Rescaling Targets），即在自適應(yīng)重新縮放目標的同時精確保留原有輸出。

有人可能會說，這句話里每個漢字我都認識，但湊在一起竟然完全不知道說的是啥？

不要方，我們今天就來“庖丁解牛”，告訴大家這個能夠讓機器“一心多用”的PopArt，究竟是何方神圣？

簡單來說，PopArt的工作機制就是在機器對不同任務(wù)的學習數(shù)據(jù)進行加權(quán)之前，先對數(shù)據(jù)目標進行自動的“歸一化”調(diào)整，再將其轉(zhuǎn)換成原始數(shù)據(jù)輸出給機器。

這一做法有兩個好處：

一是讓機器對不同獎勵大小和頻率的多個任務(wù)進行更穩(wěn)健、一致的學習。

對于機器而言，多任務(wù)學習比單一任務(wù)學習更困難的最主要原因就是，多任務(wù)學習必須要將有限的資源分配給多個任務(wù)目標，但常規(guī)算法對不同任務(wù)設(shè)置的權(quán)重也有所不同。這就導致機器智能體會根據(jù)任務(wù)回報的多寡來選擇執(zhí)行哪些任務(wù)。

舉個例子，同樣是A游戲，機器在處理《pong》（一款乒乓球游戲）時只能得到-1、0或+1的獎勵，而處理《吃豆人小姐》游戲時，則可以獲得上千個積分，機器自然會更專注于執(zhí)行后者。

即使開發(fā)者將單個獎勵設(shè)置成一樣的，隨著不同游戲獎勵頻率的不同，差距還是會越來越大，依然會影響機器的判斷。

結(jié)果就是，這個智能體會在處理某些任務(wù)上表現(xiàn)越來越好，但在其他任務(wù)上卻越來越力不從心。

但PopArt可以很好地解決這個機器“偏心”的問題。

DeepMind將PopArt應(yīng)用在自己最常用的深度強化學習智能體IMPALA上，讓它同時處理57個Atari經(jīng)典游戲，結(jié)果令人震驚——

應(yīng)用了PopArt的IMPALA，不僅分數(shù)遠遠高于原始IMPALA的表現(xiàn)，甚至超越了人類的成績！

下圖中可以看到，修正游戲數(shù)據(jù)權(quán)重后的IMPALA（藍色）性能表現(xiàn)接近于0%，與PopArt-IMPALA中位數(shù)101%的華麗數(shù)據(jù)形成了鮮明對比。

簡單來說，就是PopArt自適應(yīng)調(diào)整了每個游戲中獎勵分支的大小，讓機器認為不同任務(wù)帶給自己的獎勵是相同的，擁有同等的學習價值，因此，盡管這57個游戲有著巨量的環(huán)境、不一樣的動態(tài)和完全不同的獎勵機制，但機器都能夠?qū)λ鼈儭耙灰曂省薄?/p>

據(jù)我們所知，這還是當前單個智能體首次超越人類在多任務(wù)處理上的表現(xiàn)。

PopArt的第二重作用，則是能夠有效增加機器學習智能體的數(shù)據(jù)效率，降低訓練成本。

Deepmind發(fā)現(xiàn)，PopArt-IMPALA與像素控制技術(shù)相結(jié)合，只需要不到十分之一的數(shù)據(jù)量，就能達到原來的訓練效果，這使其數(shù)據(jù)效率大幅提升。

因此，PopArt-IMPALA在大型多任務(wù)訓練任務(wù)中，不僅比專家智能體DQN性能更高，而且更加便宜。

如果將訓練任務(wù)放到云端，PopArt-IMPALA的性能只用了2.5天就超過了DQN，GPU占用空間更小，直接促使訓練成本大幅降低。

Deepmind和OpenAI，技術(shù)大佬為何都對“多任務(wù)學習”情有獨鐘？

除了PopArt，今年早期，Deepmind還提出了另一種用于多任務(wù)訓練的新方法——Distral，通過捕捉不同任務(wù)之間的共同行為或特征，讓機器算法可以在被限制的條件下實現(xiàn)任務(wù)共享，從而進行同步強化學習。

和Deepmind一樣跟“多任務(wù)學習”死磕的還有OpenAI，則是利用迭代擴增方法，不給機器學習模型提供完整的標注數(shù)據(jù)，而是將每一項任務(wù)分解成小的子任務(wù)，再為子任務(wù)提供訓練信號，訓練AI去完成復雜任務(wù)。

此外，MIT、Apple等頂尖技術(shù)玩家都在搗鼓這項技術(shù)，然而如果你把這當做一個技術(shù)領(lǐng)域的“榮譽保衛(wèi)戰(zhàn)”或者論文制造機，那就大錯特錯了。

隨著AI的泛在化越來越強，有越來越多的領(lǐng)域都亟待“多任務(wù)學習”能力來提供新的解決方案。

這意味著，人類不需要針對每一項任務(wù)都從頭開始訓練一個全新的智能體，而是可以構(gòu)建一個通用的智能體，來支持多個應(yīng)用之間的協(xié)同工作。

比如小到一臺電視，很多AI電視都整合了眾多功能，比如觀看視頻、天氣預報、事務(wù)提醒、網(wǎng)絡(luò)購物等等，如何在既不影響用戶看視頻，又能夠用語音喚醒其他功能？這就要依靠多任務(wù)并行處理。換句話說，不具備多任務(wù)學習能力的AI電視，有的只是一個“假腦子”。

大到一個城市。在眾多關(guān)于智慧城市的假想中，都少不了這樣一個場面：城市大腦將人、車、路數(shù)據(jù)都接入系統(tǒng)，生成一個交通實時大試圖，并以此完成交通系統(tǒng)的智能調(diào)度和管理，治療“交通病”。這意味著，城市大腦需要進行攝像頭識別、城市空間布局和設(shè)施配置、事件預警、政務(wù)服務(wù)等多個系統(tǒng)的學習，能夠發(fā)掘出這些子系統(tǒng)之間的關(guān)系，又能區(qū)分這些任務(wù)之間的差別。缺了任何一環(huán)，都有可能導致這個城市大腦做出“奇葩”的決策。

當然，對于研究者來說，在用每一點進步無限逼近人類心智的“珠穆朗瑪峰”。但對產(chǎn)業(yè)而言，任何新技術(shù)的落地都從來容不得一絲任性，因為每一顆種子都在等待豐收。

為了滿足這個前提，就意味著所采取的方法不能以無限制地增加GPU容量和訓練強度為代價。因為沒有企業(yè)或者機構(gòu)愿意以一種不計成本的方式上馬AI，即便這個AI能夠處理多線程任務(wù)，那還不如“單任務(wù)AI+人工”來的更加現(xiàn)實。

目前看來，成本更低的PopArt大有可為。

說了這么多，回到最開始的問題，AI的多任務(wù)處理能力真的超越人類了嗎？

從苛刻的實驗室數(shù)字角度講，是的。但從廣泛定義的智慧角度看，機器的每一點進步都還依賴于不斷模擬和接近人腦的水平，距離否定人類本身的價值，還早著呢。

目前看來，處理多任務(wù)的學習能力更大的作用，還是提升AI在產(chǎn)業(yè)應(yīng)用上的工程能力，用更高的智能為生活帶來便利。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

超越人類的多任務(wù)學習算法，將給AI帶來什么？

下一篇

超越人類的多任務(wù)學習算法，將給AI帶來什么？