如何看待人工智能未來十年的發(fā)展?

文章來源于:蘇寧金融研究院,作者:王元,圖片來自“123RF”

2020年是不尋常的一年,全球的健康、貿(mào)易、經(jīng)濟(jì)、文化、政治和科技領(lǐng)域,無不發(fā)生著深刻的變化。筆者所在的科技領(lǐng)域,也恰逢現(xiàn)代人工智能(簡稱AI)發(fā)展10周年。前10年,人工智能技術(shù)得到了長足的發(fā)展,但也留下許多問題有待解決。那么,未來AI技術(shù)將會如何發(fā)展呢?本文將結(jié)合學(xué)術(shù)界、工業(yè)界的研究成果,以及筆者個人研究見解,從算力、數(shù)據(jù)、算法、工程化4個維度,與讀者一起探索和展望AI發(fā)展的未來。

數(shù)據(jù)

我們首先分析數(shù)據(jù)的發(fā)展趨勢。數(shù)據(jù)對人工智能,猶如食材對美味菜肴,過去10年,數(shù)據(jù)的獲取無論是數(shù)量,還是質(zhì)量,又或者是數(shù)據(jù)的種類,均增長顯著,支撐著AI技術(shù)的發(fā)展。未來,數(shù)據(jù)層面的發(fā)展會有哪些趨勢呢,我們來看一組分析數(shù)據(jù)。

首先,世界互聯(lián)網(wǎng)用戶的基數(shù)已達(dá)到十億量級,隨著物聯(lián)網(wǎng)、5G技術(shù)的進(jìn)一步發(fā)展,會帶來更多數(shù)據(jù)源和傳輸層面的能力提升,因此可以預(yù)見的是,數(shù)據(jù)的總量將繼續(xù)快速發(fā)展,且增速加快。參考IDC的數(shù)據(jù)報告(圖1),數(shù)據(jù)總量預(yù)計將從2018年的33ZB(1ZB=106GB),增長到2025年的175ZB。

其次,數(shù)據(jù)的存儲位置,業(yè)界預(yù)測仍將以集中存儲為主,且數(shù)據(jù)利用公有云存儲的比例將逐年提高,如圖2、圖3所示。


以上對于未來數(shù)據(jù)的趨勢,可以總結(jié)為:數(shù)量持續(xù)增長;云端集中存儲為主;公有云滲透率持續(xù)增長。站在AI技術(shù)的角度,可以預(yù)期數(shù)據(jù)量的持續(xù)供給是有保證的。

另一個方面,AI技術(shù)需要的不僅僅是原始數(shù)據(jù),很多還需要標(biāo)注數(shù)據(jù)。標(biāo)注數(shù)據(jù)可分為自動標(biāo)注、半自動標(biāo)注、人工標(biāo)注3個類別。

那么,標(biāo)注數(shù)據(jù)未來的趨勢會是怎樣的?

我們可從標(biāo)注數(shù)據(jù)工具市場的趨勢窺探一二,如圖4所示??梢钥吹?,人工標(biāo)注數(shù)據(jù)在未來的5-10年內(nèi),大概率依然是標(biāo)注數(shù)據(jù)的主要來源,占比超過75%。

通過以上數(shù)據(jù)維度的分析與預(yù)測,我們可以得到的判斷是,數(shù)據(jù)量本身不會限制AI技術(shù),但是人工標(biāo)注的成本與規(guī)模很可能成為限制AI技術(shù)發(fā)展的因素,這將倒逼AI技術(shù)從算法和技術(shù)本身有所突破,有效解決對數(shù)據(jù)特別是人工標(biāo)注數(shù)據(jù)的依賴。

算力

我們再來看看算力。算力對于AI技術(shù),如同廚房灶臺對于美味佳肴一樣,本質(zhì)是一種基礎(chǔ)設(shè)施的支撐。

算力指的是實現(xiàn)AI系統(tǒng)所需要的硬件計算能力。半導(dǎo)體計算類芯片的發(fā)展是AI算力的根本源動力,好消息是,雖然半導(dǎo)體行業(yè)發(fā)展有起有落,并一直伴隨著是否可持續(xù)性的懷疑,但是半導(dǎo)體行業(yè)著名的“摩爾定律”已經(jīng)經(jīng)受住了120年考驗(圖5),相信未來5-10年依然能夠平穩(wěn)發(fā)展。

不過,值得注意的是,摩爾定律在計算芯片領(lǐng)域依然維持,很大原因是因為圖形處理器(GPU)的迅速發(fā)展,彌補了通用處理器(CPU)發(fā)展的趨緩,如圖6所示,從圖中可以看出GPU的晶體管數(shù)量增長已超過CPU,CPU晶體管開始落后于摩爾定律。

當(dāng)然,半導(dǎo)體晶體管數(shù)量反映整體趨勢可以,但還不夠準(zhǔn)確地反映算力發(fā)展情況。對于AI系統(tǒng)來說,浮點運算和內(nèi)存是更直接的算力指標(biāo),下面具體對比一下GPU和CPU這2方面的性能,如圖7所示??梢钥闯?,GPU無論是在計算能力還是在內(nèi)存訪問速度上,近10年發(fā)展遠(yuǎn)超CPU,很好的填補了CPU的性能發(fā)展瓶頸問題。

另一方面,依照前瞻產(chǎn)業(yè)研究院梳理的數(shù)據(jù),就2019年的AI芯片收入規(guī)模來看,GPU芯片擁有27%左右的份額,CPU芯片僅占17%的份額??梢钥吹?,GPU已成為由深度學(xué)習(xí)技術(shù)為代表的人工智能領(lǐng)域的硬件計算標(biāo)準(zhǔn)配置,形成的原因也十分簡單,現(xiàn)有的AI算法,尤其在模型訓(xùn)練階段,對算力的需求持續(xù)增加,而GPU算力恰好比CPU要強(qiáng)很多,同時是一種與AI算法模型本身耦合度很低的一種通用計算設(shè)備。

除了GPU與CPU,其他計算設(shè)備如ASIC、FGPA等新興AI芯片也在發(fā)展,值得行業(yè)關(guān)注。鑒于未來數(shù)據(jù)大概率仍在云端存儲的情況下,這些芯片能否在提高性能效率的同時,保證通用性,且可以被云廠商規(guī)模性部署,獲得軟件生態(tài)的支持,有待進(jìn)一步觀察。

算法

現(xiàn)在我們來分析算法。AI算法對于人工智能,就是廚師與美味佳肴的關(guān)系。過去10年AI的發(fā)展,數(shù)據(jù)和算力都起到了很好的輔助作用,但是不可否認(rèn)的是,基于深度學(xué)習(xí)的算法結(jié)合其應(yīng)用取得的性能突破,是AI技術(shù)在2020年取得里程碑式發(fā)展階段的重要原因。

那么,AI算法在未來的發(fā)展趨勢是什么呢?這個問題是學(xué)術(shù)界、工業(yè)界集中討論的核心問題之一,一個普遍的共識是,延續(xù)過去10年AI技術(shù)的發(fā)展,得益于深度學(xué)習(xí),但是此路徑發(fā)展帶來的算力問題,較難持續(xù)。下面我們看一張圖,以及一組數(shù)據(jù):

1.

 根據(jù)OpenAI最新的測算,訓(xùn)練一個大型AI模型的算力,從2012年開始計算已經(jīng)翻了30萬倍,即年平均增長11.5倍,而算力的硬件增長速率,即摩爾定律,只達(dá)到年平均增速1.4倍;另一方面,算法效率的進(jìn)步,年平均節(jié)省約1.7倍的算力。這意味著,隨著我們繼續(xù)追求算法性能的不斷提升,每年平均有約8.5倍的算力赤字,令人擔(dān)憂。一個實際的例子為今年最新發(fā)布的自然語義預(yù)訓(xùn)練模型GPT-3,僅訓(xùn)練成本已達(dá)到約1300萬美元,這種方式是否可持續(xù),值得我們思考。

2.  MIT最新研究表明,對于一個過參數(shù)化(即參數(shù)數(shù)量比訓(xùn)練數(shù)據(jù)樣本多)的AI模型,滿足一個理論上限公式:

上述公式表明,其算力需求在理想情況下,大于等于性能需求的4次方,從2012年至今的模型表現(xiàn)在ImageNet數(shù)據(jù)集上分析,現(xiàn)實情況是在9次方的水平上下浮動,意味著現(xiàn)有的算法研究和實現(xiàn)方法,在效率上有很大的優(yōu)化空間。

3.  按以上數(shù)據(jù)測算,人工智能算法在圖像分類任務(wù)(ImageNet)達(dá)到1%的錯誤率預(yù)計要花費1億萬億(10的20次方)美元,成本不可承受。

結(jié)合前文所述的數(shù)據(jù)和算力2個維度的分析,相信讀者可以發(fā)現(xiàn),未來標(biāo)注數(shù)據(jù)成本、算力成本的代價之高,意味著數(shù)據(jù)紅利與算力紅利正在逐漸消退,人工智能技術(shù)發(fā)展的核心驅(qū)動力未來將主要依靠算法層面的突破與創(chuàng)新。就目前最新的學(xué)術(shù)與工業(yè)界研究成果來看,筆者認(rèn)為AI算法在未來的發(fā)展,可能具有以下特點:

(1)先驗知識表示與深度學(xué)習(xí)的結(jié)合

縱觀70多年的人工智能發(fā)展史,符號主義、連接主義、行為主義是人工智能發(fā)展初期形成的3個學(xué)術(shù)流派。如今,以深度學(xué)習(xí)為典型代表的連接主義事實成為過去10年的發(fā)展主流,行為主義則在強(qiáng)化學(xué)習(xí)領(lǐng)域獲得重大突破,圍棋大腦AlphaGo的成就已家喻戶曉。

值得注意的是,原本獨立發(fā)展的3個學(xué)派,正在開始以深度學(xué)習(xí)為主線的技術(shù)融合,比如在2013年,強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)明了DQN網(wǎng)絡(luò),其中采用了神經(jīng)網(wǎng)絡(luò),開啟了一個新的研究領(lǐng)域稱作深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)。

那么,符號主義類算法是否也會和深度學(xué)習(xí)進(jìn)行融合呢?一個熱門候選是圖網(wǎng)絡(luò)(Graph Network)技術(shù),這項技術(shù)正在與深度學(xué)習(xí)技術(shù)相融合,形成深度圖網(wǎng)絡(luò)研究領(lǐng)域。圖網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)易于表達(dá)人類的先驗知識,且是一種更加通用、推理能力更強(qiáng)(又稱歸納偏置)的信息表達(dá)方法,這或許是可同時解決深度學(xué)習(xí)模型數(shù)據(jù)饑渴、推理能力不足以及輸出結(jié)果可解釋性不足的一把鑰匙。

(2)模型結(jié)構(gòu)借鑒生物科學(xué)

深度學(xué)習(xí)模型的模型結(jié)構(gòu)由前反饋和反向傳播構(gòu)成,與生物神經(jīng)網(wǎng)絡(luò)相比,模型的結(jié)構(gòu)過于簡單。深度學(xué)習(xí)模型結(jié)構(gòu)是否可以從生物科學(xué)、生物神經(jīng)科學(xué)的進(jìn)步和發(fā)現(xiàn)中吸取靈感,從而發(fā)現(xiàn)更加優(yōu)秀的模型是一個值得關(guān)注的領(lǐng)域。另一個方面,如何給深度學(xué)習(xí)模型加入不確定性的參數(shù)建模,使其更好的處理隨機(jī)不確定性,也是一個可能產(chǎn)生突破的領(lǐng)域。

(3)數(shù)據(jù)生成

AI模型訓(xùn)練依賴數(shù)據(jù),這一點目前來看不是問題,但是AI模型訓(xùn)練依賴人工標(biāo)注數(shù)據(jù),是一個頭痛的問題。利用算法有效解決或者大幅降低模型訓(xùn)練對于人工標(biāo)注數(shù)據(jù)的依賴,是一個熱點研究領(lǐng)域。實際上,在人工智能技術(shù)發(fā)展過程中一直若隱若現(xiàn)的美國國防部高級研究計劃局(DARPA),已經(jīng)將此領(lǐng)域定為其AI3.0發(fā)展計劃目標(biāo)之一,可見其重要程度。

(4)模型自評估

現(xiàn)有的AI算法,無論是機(jī)器學(xué)習(xí)算法,還是深度學(xué)習(xí)算法,其研發(fā)模式本質(zhì)上是通過訓(xùn)練閉環(huán)(closed loop)、推理開環(huán)(open loop)的方式進(jìn)行的。是否可以通過設(shè)計模型自評估,在推理環(huán)節(jié)將開環(huán)系統(tǒng)進(jìn)化成閉環(huán)系統(tǒng)也是一個值得研究的領(lǐng)域。在通信領(lǐng)域,控制領(lǐng)域等其他行業(yè)領(lǐng)域的大量算法實踐表明,采用閉環(huán)算法的系統(tǒng)在性能和輸出可預(yù)測性上,通常均比開環(huán)系統(tǒng)優(yōu)秀,且閉環(huán)系統(tǒng)可大幅降低性能斷崖式衰減的可能性。閉環(huán)系統(tǒng)的這些特性,提供了對AI系統(tǒng)提高魯棒性和可對抗性的一種思路和方法。

工程化

上文已經(jīng)對人工智能數(shù)據(jù)、算力、算法層面進(jìn)行了梳理和分析,最后我們看看工程化。工程化對于人工智能,如同廚具對于美味佳肴一樣,是將數(shù)據(jù)、算力、算法結(jié)合到一起的媒介。

工程化的本質(zhì)作用是提升效率,即最大化利用資源,最小化減少信息之間的轉(zhuǎn)換損失。打一個簡單的比喻,要做出美味佳肴,食材、廚房灶臺、廚師都有,但是唯獨沒有合適的廚具,那么廚師既無法發(fā)揮廚藝(算法),又無法處理食材(數(shù)據(jù)),也無法使用廚房灶臺的水電氣(算力)。因此,可以預(yù)見,工程化未來的發(fā)展,是將上文提到的算力與算法性能關(guān)系,從現(xiàn)在的9次方,逼近到理論上限4次方的重要手段之一。

過去10年,AI工程化發(fā)展,已形成一個明晰的工具鏈體系,近期也伴隨著一些值得關(guān)注的變化,筆者將一些較為明顯的趨勢,匯總?cè)缦拢?/p>

總結(jié)來說,AI工程化正在形成從用戶端到云端的,以Python為編程語言的一整套工具鏈,其3個重要的特點為:遠(yuǎn)程編程與調(diào)試,深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的GPU加速支持,以及模型訓(xùn)練與推理工具鏈的解耦。與此同時,產(chǎn)業(yè)鏈上游廠商對開源社區(qū)的大量投入,將為中下游企業(yè)和個人帶來工具鏈的技術(shù)紅利,降低其研發(fā)門檻和成本,筆者認(rèn)為微軟、臉書、英偉達(dá)3家上游廠商主推的開源工具鏈尤其值得關(guān)注。

結(jié)語

對于人工智能技術(shù)過去10年發(fā)展取得的成就,有人歸因于數(shù)據(jù),也有人歸因于算力。未來人工智能技術(shù)發(fā)展,筆者大膽預(yù)測,算法將是核心驅(qū)動力。同時,算法研發(fā)的實際效率,除了算法結(jié)構(gòu)本身,還取決于設(shè)計者對先進(jìn)工具鏈的掌握程度。

未來10年,科技界是否能用更少的數(shù)據(jù),更經(jīng)濟(jì)的算力,獲得真正意義上的通用智能呢?我們拭目以待。



本文經(jīng)授權(quán)發(fā)布,版權(quán)歸原作者所有;內(nèi)容為作者獨立觀點,不代表億歐立場。如需轉(zhuǎn)載請聯(lián)系原作者。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-08-19
如何看待人工智能未來十年的發(fā)展?
AI,下個10年會怎樣顛覆想象?

長按掃碼 閱讀全文