原標題:深度強化學(xué)習(xí)的“叢林”大冒險
DeepMind在AI界是一家神奇的公司,在過去的幾年取得了許多令人矚目的成績,例如享譽世界的阿法狗打敗人類登頂圍棋的天花板,Deepmind AlphaStar打敗了星際爭霸人類高手等。
在生命科學(xué)領(lǐng)域,AIphaFold2模型,可以將人類98.5%的蛋白質(zhì)結(jié)構(gòu)全部預(yù)測一遍,深入生命信息的深處、解讀生命運行的密碼。
DeepMind在生物、數(shù)學(xué)、化學(xué)、物理等領(lǐng)域中撒下的種子,吸引了許多聰慧大腦紛紛前往,投身AI科學(xué)領(lǐng)域的探索。頂尖的專家聚集在DeepMind,誕生出許多突破性進展的工作,取得了許多人工智能里程碑級別的成績。在能源危機和環(huán)保壓力中,DeepMind也聚焦核聚變、核物理領(lǐng)域,將AI賦能在核聚變的復(fù)雜反應(yīng)中,讓可控的核聚變反應(yīng)又往前邁出了一大步。
核聚變的“暗黑叢林”
核聚變、核裂變,總讓人傻傻分不清楚,如果拿應(yīng)用的場景來區(qū)分的話,就很容易辨別了。核裂變就是原子彈以及核電站主要應(yīng)用的技術(shù)。核聚變在自然界中最常見的就是太陽了,太陽的核聚變已經(jīng)持續(xù)了46億年。其原理是通過將氫元素的親戚氘和氚原子進行核聚合反應(yīng),釋放大量的能量。
相對于核裂變而言,核聚變反應(yīng)不僅能夠產(chǎn)生大量的能量,也不會產(chǎn)生核廢料,是人類理想的終極能源。但實現(xiàn)核聚變的商業(yè)化還需要突破許多難關(guān),包括等離子體反應(yīng)的約束,氘與氚原料的提供,成本的控制等,其中最大的難題就是如何控制和約束核聚變反應(yīng),如果無法做到緩慢有序的能量釋放,瞬間的能量釋放跟炸彈沒什么兩樣。
科學(xué)家們在核聚變反應(yīng)中,通常通過三種物理方式約束核聚變反應(yīng):重力場約束,磁力場約束和慣性約束。
太陽上的核聚變就是靠其強大的萬有引力提供的重力場約束,這個方法我們在地球上無法復(fù)刻實現(xiàn)。使用托卡馬克裝置是磁力場約束核聚變的方法。目前世界各國的主攻可控核聚變的方式都是磁約束的方向,這也是最有希望實現(xiàn)可控核聚變的方式。
由于核聚變需要極高溫度,一旦某一環(huán)節(jié)出現(xiàn)問題,燃料溫度下降,聚變反應(yīng)就會自動中止。托卡馬克裝置的作用就是可以長時的約束高溫的等離子體,讓核聚變的反應(yīng)可以持續(xù)并可控。不過隨著核聚變的反應(yīng)堆增大,托克馬克裝置越來越復(fù)雜,對其內(nèi)部配置的重復(fù)反復(fù)運行設(shè)置要求越來越高。
為了優(yōu)化等離子體的穩(wěn)定性、封閉性和能量排放,需要在托卡馬克內(nèi)設(shè)計反饋控制器以精確控制磁耦合的線圈來操縱磁場,以達到理想的等離子體電流、位置和形狀。這個問題也就是著名的“托卡馬克磁控制問題”。
但這個控制過程是非線性、實時變化、多變量的,非常復(fù)雜,需要花費大量的工程、設(shè)計和專業(yè)知識,同時還要進行復(fù)雜的平衡估計實時計算調(diào)控的電流。對于傳統(tǒng)的計算機模型和模擬方式來說,不一定能夠起到優(yōu)化的作用,精確性無法保障。
而這也是AI所擅長的,深度強化學(xué)習(xí)可以作為全新的處理復(fù)雜核聚變方式,用來設(shè)計這個非線性的反饋控制器。將核試驗科學(xué)家們的大腦從如何設(shè)置的怪圈中解放。
融合蓄勢
DeepMind的團隊,花費了整整三年時間,來解決核聚變實驗中的可控問題。我們知道深度強化學(xué)習(xí)的運作原理是智能題與環(huán)境間的交互學(xué)習(xí),通過目標設(shè)置和獎勵反饋來運行。
在核聚變實驗中,科學(xué)家們通過強化學(xué)習(xí)設(shè)計的磁性控制器,可以自主學(xué)習(xí)設(shè)計整個控制線圈的電流,既可以滿足苛刻的物理操作約束條件,也能夠?qū)崿F(xiàn)穩(wěn)定的輸出控制,大大減少研究者的設(shè)計工作量。
在托卡馬克磁約束控制器的設(shè)計中,主要的思路是先為核聚變實驗指定約束控制的目標,通過深度強化學(xué)習(xí)算法,找到滿足約束條件和目標的最優(yōu)策略,零樣本的神經(jīng)網(wǎng)絡(luò)控制策略最終在托卡馬克的硬件設(shè)備上運行。最終生成了一系列的不同等離子控制配置,深度強化學(xué)習(xí)系統(tǒng)可以對這些配置的位置、電流和形狀進行精確地跟蹤,并可以實現(xiàn)實時控制。
如果用一句話來概括AI賦予了核聚變實驗什么優(yōu)勢,那就是深度強化學(xué)習(xí)極大地減少了磁約束控制器的開發(fā)周期,加速了科研人員對替代性等離子體配置的研究。
在一些實時的動態(tài)變化中,所有的試驗操作結(jié)果都瞬息萬變,依賴人與機器的經(jīng)驗并不能完全的實現(xiàn)最優(yōu)解,深度強化學(xué)習(xí)是相較人類來說最完美的最佳武器。不過深度強化學(xué)習(xí)也存在一些局限,也是未來值得去突破的方向,包括:
1.在很多實際應(yīng)用中,目標并不是很明確,多元感知信息的處理存在局限。例如在多輪對話系統(tǒng)中目標設(shè)置“表現(xiàn)得像人”,然而這個目標無法清楚地進行數(shù)學(xué)描述。
2. 獎勵函數(shù)系數(shù),獎勵函數(shù)噪聲處理的局限,難以探索到優(yōu)質(zhì)解。
3. 泛化能力與魯棒性在一些情境中比較差,很多結(jié)果處在過擬合的區(qū)域。從強化學(xué)習(xí)的算法策略角度來看,可能是算法存在估值偏差,也有可能是面對非靜態(tài)智能體時,存在判別不準確的局限性。
而在核物理領(lǐng)域中,在人類智識界限的邊緣,隨著聚變反應(yīng)堆的增大,對于托卡馬克裝置的復(fù)雜度要求也就越高。更多數(shù)量的等離子體控制需要更高的準確性和可靠性試驗,而這一切需要深度強化學(xué)習(xí)進一步的策略優(yōu)化和更加嚴格的控制,才能突破。AI控制的核聚變反應(yīng)加速了核聚變清潔能源規(guī)?;絹淼囊惶臁?/p>
觸碰極限的邊界
可控核聚變的終極目標,就是讓海水中大量存在的氘在高溫條件下像太陽一樣發(fā)生核聚變,為人類提供源源不斷的清潔能源。
在AI的賦能下,我們可以探索一些原本依靠智識無法到達的領(lǐng)域突破界限。在漫長的科研領(lǐng)域中,AI加速我們到達彼岸的距離。
在自動駕駛研究的領(lǐng)域中,決策的系統(tǒng)也跟核物理一般,存在許多實時的變量,如:不同地方的限速不同,是否是可行駛區(qū)域,如何躲避障礙等問題。軌跡優(yōu)化,運動規(guī)劃,動態(tài)路徑,最優(yōu)控制,以及高速路中的情景學(xué)習(xí)策略等都可以與深度強化學(xué)習(xí)結(jié)合。
而在工業(yè)領(lǐng)域的研究中,基于強化學(xué)習(xí)的機器人智能體可以處理執(zhí)行各種任務(wù)。不僅效率比人高,還可以擁有無比強大的安全性。
在科研中,無數(shù)約束條件的范圍內(nèi)起舞,不會終止地向深處前行,需要深度強化學(xué)習(xí)帶來突破的力量,雖然現(xiàn)階段結(jié)果可能會受到網(wǎng)絡(luò)結(jié)構(gòu)、獎賞比例、隨機種子、隨機實驗、環(huán)境、程序?qū)崿F(xiàn)等的影響,但這也是未來攻堅克服的方向。
如何簡潔的概括深度強化學(xué)習(xí)帶給科研的力量,AI制藥和AIphaFold2模型解析蛋白質(zhì)這兩個例子最能夠清晰闡釋價值所在。一個是效率的極大提升,另外就是研究疆域的開拓。這也加速了科研的進程,一方面給研究人員帶來極大的便利,另一方面也對研究人員的綜合能力提出了考驗:對于跨界領(lǐng)域的輸入與輸出學(xué)習(xí),以及腦力在科研本身的延伸。
在科研、工業(yè)、交通、金融、生物等領(lǐng)域,深度強化學(xué)習(xí)的技術(shù)意義深遠,復(fù)雜多變的客觀因素與最優(yōu)的價值排序之間,有了連接。AI架起了這座橋梁,通向未來的演繹朝著不可預(yù)測的方向駛進。
拿核聚變實驗來說,發(fā)展可控核聚變技術(shù)意義深遠,導(dǎo)向的是人類最大的困擾--能源問題。借由AI賦能的可控規(guī)?;司圩儗崿F(xiàn)的可能性更大,所帶來的接近無限的清潔能源將會徹底解決能源問題。廉價的能源不僅加快經(jīng)濟建設(shè)和工業(yè)生產(chǎn),同時也會改善環(huán)境的治理。
更深一步的話,復(fù)雜的多變量問題如果得到規(guī)?;薪鉀Q,將會釋放出巨大的能量,這也意味著人類將會進入一個新的紀元。
當所有的領(lǐng)域都經(jīng)過AI技術(shù)的催化,深度與廣度得到極大的躍升,人類的智識到了進化的邊界,或者說是機器與人的協(xié)同達到了發(fā)展的頂峰,基礎(chǔ)的生存困擾解決了,精神的全面升階開始。束縛人類幾萬年的生存枷鎖脫落,誕生出的文明將會是什么模樣?這樣的局面依托人類的智識去觸碰是龜速爬行,但借由AI我們會如乘坐“火箭”的速度一般,探索到接近極限的邊界。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應(yīng)對航天業(yè)務(wù)虧損與供應(yīng)鏈挑戰(zhàn)
- 科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展:江陰市與清華大學(xué)攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務(wù)
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設(shè)立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。