文章來源于:蘇寧金融研究院,作者:王元,圖片來自“123RF”
2020年是不尋常的一年,全球的健康、貿(mào)易、經(jīng)濟(jì)、文化、政治和科技領(lǐng)域,無不發(fā)生著深刻的變化。筆者所在的科技領(lǐng)域,也恰逢現(xiàn)代人工智能(簡稱AI)發(fā)展10周年。前10年,人工智能技術(shù)得到了長足的發(fā)展,但也留下許多問題有待解決。那么,未來AI技術(shù)將會(huì)如何發(fā)展呢?本文將結(jié)合學(xué)術(shù)界、工業(yè)界的研究成果,以及筆者個(gè)人研究見解,從算力、數(shù)據(jù)、算法、工程化4個(gè)維度,與讀者一起探索和展望AI發(fā)展的未來。
數(shù)據(jù)
我們首先分析數(shù)據(jù)的發(fā)展趨勢。數(shù)據(jù)對(duì)人工智能,猶如食材對(duì)美味菜肴,過去10年,數(shù)據(jù)的獲取無論是數(shù)量,還是質(zhì)量,又或者是數(shù)據(jù)的種類,均增長顯著,支撐著AI技術(shù)的發(fā)展。未來,數(shù)據(jù)層面的發(fā)展會(huì)有哪些趨勢呢,我們來看一組分析數(shù)據(jù)。
首先,世界互聯(lián)網(wǎng)用戶的基數(shù)已達(dá)到十億量級(jí),隨著物聯(lián)網(wǎng)、5G技術(shù)的進(jìn)一步發(fā)展,會(huì)帶來更多數(shù)據(jù)源和傳輸層面的能力提升,因此可以預(yù)見的是,數(shù)據(jù)的總量將繼續(xù)快速發(fā)展,且增速加快。參考IDC的數(shù)據(jù)報(bào)告(圖1),數(shù)據(jù)總量預(yù)計(jì)將從2018年的33ZB(1ZB=106GB),增長到2025年的175ZB。
其次,數(shù)據(jù)的存儲(chǔ)位置,業(yè)界預(yù)測仍將以集中存儲(chǔ)為主,且數(shù)據(jù)利用公有云存儲(chǔ)的比例將逐年提高,如圖2、圖3所示。
以上對(duì)于未來數(shù)據(jù)的趨勢,可以總結(jié)為:數(shù)量持續(xù)增長;云端集中存儲(chǔ)為主;公有云滲透率持續(xù)增長。站在AI技術(shù)的角度,可以預(yù)期數(shù)據(jù)量的持續(xù)供給是有保證的。
另一個(gè)方面,AI技術(shù)需要的不僅僅是原始數(shù)據(jù),很多還需要標(biāo)注數(shù)據(jù)。標(biāo)注數(shù)據(jù)可分為自動(dòng)標(biāo)注、半自動(dòng)標(biāo)注、人工標(biāo)注3個(gè)類別。
那么,標(biāo)注數(shù)據(jù)未來的趨勢會(huì)是怎樣的?
我們可從標(biāo)注數(shù)據(jù)工具市場的趨勢窺探一二,如圖4所示??梢钥吹剑斯?biāo)注數(shù)據(jù)在未來的5-10年內(nèi),大概率依然是標(biāo)注數(shù)據(jù)的主要來源,占比超過75%。
通過以上數(shù)據(jù)維度的分析與預(yù)測,我們可以得到的判斷是,數(shù)據(jù)量本身不會(huì)限制AI技術(shù),但是人工標(biāo)注的成本與規(guī)模很可能成為限制AI技術(shù)發(fā)展的因素,這將倒逼AI技術(shù)從算法和技術(shù)本身有所突破,有效解決對(duì)數(shù)據(jù)特別是人工標(biāo)注數(shù)據(jù)的依賴。
算力
我們?cè)賮砜纯此懔?。算力?duì)于AI技術(shù),如同廚房灶臺(tái)對(duì)于美味佳肴一樣,本質(zhì)是一種基礎(chǔ)設(shè)施的支撐。
算力指的是實(shí)現(xiàn)AI系統(tǒng)所需要的硬件計(jì)算能力。半導(dǎo)體計(jì)算類芯片的發(fā)展是AI算力的根本源動(dòng)力,好消息是,雖然半導(dǎo)體行業(yè)發(fā)展有起有落,并一直伴隨著是否可持續(xù)性的懷疑,但是半導(dǎo)體行業(yè)著名的“摩爾定律”已經(jīng)經(jīng)受住了120年考驗(yàn)(圖5),相信未來5-10年依然能夠平穩(wěn)發(fā)展。
不過,值得注意的是,摩爾定律在計(jì)算芯片領(lǐng)域依然維持,很大原因是因?yàn)閳D形處理器(GPU)的迅速發(fā)展,彌補(bǔ)了通用處理器(CPU)發(fā)展的趨緩,如圖6所示,從圖中可以看出GPU的晶體管數(shù)量增長已超過CPU,CPU晶體管開始落后于摩爾定律。
當(dāng)然,半導(dǎo)體晶體管數(shù)量反映整體趨勢可以,但還不夠準(zhǔn)確地反映算力發(fā)展情況。對(duì)于AI系統(tǒng)來說,浮點(diǎn)運(yùn)算和內(nèi)存是更直接的算力指標(biāo),下面具體對(duì)比一下GPU和CPU這2方面的性能,如圖7所示??梢钥闯?,GPU無論是在計(jì)算能力還是在內(nèi)存訪問速度上,近10年發(fā)展遠(yuǎn)超CPU,很好的填補(bǔ)了CPU的性能發(fā)展瓶頸問題。
另一方面,依照前瞻產(chǎn)業(yè)研究院梳理的數(shù)據(jù),就2019年的AI芯片收入規(guī)模來看,GPU芯片擁有27%左右的份額,CPU芯片僅占17%的份額??梢钥吹?,GPU已成為由深度學(xué)習(xí)技術(shù)為代表的人工智能領(lǐng)域的硬件計(jì)算標(biāo)準(zhǔn)配置,形成的原因也十分簡單,現(xiàn)有的AI算法,尤其在模型訓(xùn)練階段,對(duì)算力的需求持續(xù)增加,而GPU算力恰好比CPU要強(qiáng)很多,同時(shí)是一種與AI算法模型本身耦合度很低的一種通用計(jì)算設(shè)備。
除了GPU與CPU,其他計(jì)算設(shè)備如ASIC、FGPA等新興AI芯片也在發(fā)展,值得行業(yè)關(guān)注。鑒于未來數(shù)據(jù)大概率仍在云端存儲(chǔ)的情況下,這些芯片能否在提高性能效率的同時(shí),保證通用性,且可以被云廠商規(guī)模性部署,獲得軟件生態(tài)的支持,有待進(jìn)一步觀察。
算法
現(xiàn)在我們來分析算法。AI算法對(duì)于人工智能,就是廚師與美味佳肴的關(guān)系。過去10年AI的發(fā)展,數(shù)據(jù)和算力都起到了很好的輔助作用,但是不可否認(rèn)的是,基于深度學(xué)習(xí)的算法結(jié)合其應(yīng)用取得的性能突破,是AI技術(shù)在2020年取得里程碑式發(fā)展階段的重要原因。
那么,AI算法在未來的發(fā)展趨勢是什么呢?這個(gè)問題是學(xué)術(shù)界、工業(yè)界集中討論的核心問題之一,一個(gè)普遍的共識(shí)是,延續(xù)過去10年AI技術(shù)的發(fā)展,得益于深度學(xué)習(xí),但是此路徑發(fā)展帶來的算力問題,較難持續(xù)。下面我們看一張圖,以及一組數(shù)據(jù):
1.
根據(jù)OpenAI最新的測算,訓(xùn)練一個(gè)大型AI模型的算力,從2012年開始計(jì)算已經(jīng)翻了30萬倍,即年平均增長11.5倍,而算力的硬件增長速率,即摩爾定律,只達(dá)到年平均增速1.4倍;另一方面,算法效率的進(jìn)步,年平均節(jié)省約1.7倍的算力。這意味著,隨著我們繼續(xù)追求算法性能的不斷提升,每年平均有約8.5倍的算力赤字,令人擔(dān)憂。一個(gè)實(shí)際的例子為今年最新發(fā)布的自然語義預(yù)訓(xùn)練模型GPT-3,僅訓(xùn)練成本已達(dá)到約1300萬美元,這種方式是否可持續(xù),值得我們思考。
2. MIT最新研究表明,對(duì)于一個(gè)過參數(shù)化(即參數(shù)數(shù)量比訓(xùn)練數(shù)據(jù)樣本多)的AI模型,滿足一個(gè)理論上限公式:
上述公式表明,其算力需求在理想情況下,大于等于性能需求的4次方,從2012年至今的模型表現(xiàn)在ImageNet數(shù)據(jù)集上分析,現(xiàn)實(shí)情況是在9次方的水平上下浮動(dòng),意味著現(xiàn)有的算法研究和實(shí)現(xiàn)方法,在效率上有很大的優(yōu)化空間。
3. 按以上數(shù)據(jù)測算,人工智能算法在圖像分類任務(wù)(ImageNet)達(dá)到1%的錯(cuò)誤率預(yù)計(jì)要花費(fèi)1億萬億(10的20次方)美元,成本不可承受。
結(jié)合前文所述的數(shù)據(jù)和算力2個(gè)維度的分析,相信讀者可以發(fā)現(xiàn),未來標(biāo)注數(shù)據(jù)成本、算力成本的代價(jià)之高,意味著數(shù)據(jù)紅利與算力紅利正在逐漸消退,人工智能技術(shù)發(fā)展的核心驅(qū)動(dòng)力未來將主要依靠算法層面的突破與創(chuàng)新。就目前最新的學(xué)術(shù)與工業(yè)界研究成果來看,筆者認(rèn)為AI算法在未來的發(fā)展,可能具有以下特點(diǎn):
(1)先驗(yàn)知識(shí)表示與深度學(xué)習(xí)的結(jié)合
縱觀70多年的人工智能發(fā)展史,符號(hào)主義、連接主義、行為主義是人工智能發(fā)展初期形成的3個(gè)學(xué)術(shù)流派。如今,以深度學(xué)習(xí)為典型代表的連接主義事實(shí)成為過去10年的發(fā)展主流,行為主義則在強(qiáng)化學(xué)習(xí)領(lǐng)域獲得重大突破,圍棋大腦AlphaGo的成就已家喻戶曉。
值得注意的是,原本獨(dú)立發(fā)展的3個(gè)學(xué)派,正在開始以深度學(xué)習(xí)為主線的技術(shù)融合,比如在2013年,強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)明了DQN網(wǎng)絡(luò),其中采用了神經(jīng)網(wǎng)絡(luò),開啟了一個(gè)新的研究領(lǐng)域稱作深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)。
那么,符號(hào)主義類算法是否也會(huì)和深度學(xué)習(xí)進(jìn)行融合呢?一個(gè)熱門候選是圖網(wǎng)絡(luò)(Graph Network)技術(shù),這項(xiàng)技術(shù)正在與深度學(xué)習(xí)技術(shù)相融合,形成深度圖網(wǎng)絡(luò)研究領(lǐng)域。圖網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)易于表達(dá)人類的先驗(yàn)知識(shí),且是一種更加通用、推理能力更強(qiáng)(又稱歸納偏置)的信息表達(dá)方法,這或許是可同時(shí)解決深度學(xué)習(xí)模型數(shù)據(jù)饑渴、推理能力不足以及輸出結(jié)果可解釋性不足的一把鑰匙。
(2)模型結(jié)構(gòu)借鑒生物科學(xué)
深度學(xué)習(xí)模型的模型結(jié)構(gòu)由前反饋和反向傳播構(gòu)成,與生物神經(jīng)網(wǎng)絡(luò)相比,模型的結(jié)構(gòu)過于簡單。深度學(xué)習(xí)模型結(jié)構(gòu)是否可以從生物科學(xué)、生物神經(jīng)科學(xué)的進(jìn)步和發(fā)現(xiàn)中吸取靈感,從而發(fā)現(xiàn)更加優(yōu)秀的模型是一個(gè)值得關(guān)注的領(lǐng)域。另一個(gè)方面,如何給深度學(xué)習(xí)模型加入不確定性的參數(shù)建模,使其更好的處理隨機(jī)不確定性,也是一個(gè)可能產(chǎn)生突破的領(lǐng)域。
(3)數(shù)據(jù)生成
AI模型訓(xùn)練依賴數(shù)據(jù),這一點(diǎn)目前來看不是問題,但是AI模型訓(xùn)練依賴人工標(biāo)注數(shù)據(jù),是一個(gè)頭痛的問題。利用算法有效解決或者大幅降低模型訓(xùn)練對(duì)于人工標(biāo)注數(shù)據(jù)的依賴,是一個(gè)熱點(diǎn)研究領(lǐng)域。實(shí)際上,在人工智能技術(shù)發(fā)展過程中一直若隱若現(xiàn)的美國國防部高級(jí)研究計(jì)劃局(DARPA),已經(jīng)將此領(lǐng)域定為其AI3.0發(fā)展計(jì)劃目標(biāo)之一,可見其重要程度。
(4)模型自評(píng)估
現(xiàn)有的AI算法,無論是機(jī)器學(xué)習(xí)算法,還是深度學(xué)習(xí)算法,其研發(fā)模式本質(zhì)上是通過訓(xùn)練閉環(huán)(closed loop)、推理開環(huán)(open loop)的方式進(jìn)行的。是否可以通過設(shè)計(jì)模型自評(píng)估,在推理環(huán)節(jié)將開環(huán)系統(tǒng)進(jìn)化成閉環(huán)系統(tǒng)也是一個(gè)值得研究的領(lǐng)域。在通信領(lǐng)域,控制領(lǐng)域等其他行業(yè)領(lǐng)域的大量算法實(shí)踐表明,采用閉環(huán)算法的系統(tǒng)在性能和輸出可預(yù)測性上,通常均比開環(huán)系統(tǒng)優(yōu)秀,且閉環(huán)系統(tǒng)可大幅降低性能斷崖式衰減的可能性。閉環(huán)系統(tǒng)的這些特性,提供了對(duì)AI系統(tǒng)提高魯棒性和可對(duì)抗性的一種思路和方法。
工程化
上文已經(jīng)對(duì)人工智能數(shù)據(jù)、算力、算法層面進(jìn)行了梳理和分析,最后我們看看工程化。工程化對(duì)于人工智能,如同廚具對(duì)于美味佳肴一樣,是將數(shù)據(jù)、算力、算法結(jié)合到一起的媒介。
工程化的本質(zhì)作用是提升效率,即最大化利用資源,最小化減少信息之間的轉(zhuǎn)換損失。打一個(gè)簡單的比喻,要做出美味佳肴,食材、廚房灶臺(tái)、廚師都有,但是唯獨(dú)沒有合適的廚具,那么廚師既無法發(fā)揮廚藝(算法),又無法處理食材(數(shù)據(jù)),也無法使用廚房灶臺(tái)的水電氣(算力)。因此,可以預(yù)見,工程化未來的發(fā)展,是將上文提到的算力與算法性能關(guān)系,從現(xiàn)在的9次方,逼近到理論上限4次方的重要手段之一。
過去10年,AI工程化發(fā)展,已形成一個(gè)明晰的工具鏈體系,近期也伴隨著一些值得關(guān)注的變化,筆者將一些較為明顯的趨勢,匯總?cè)缦拢?/p>
總結(jié)來說,AI工程化正在形成從用戶端到云端的,以Python為編程語言的一整套工具鏈,其3個(gè)重要的特點(diǎn)為:遠(yuǎn)程編程與調(diào)試,深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的GPU加速支持,以及模型訓(xùn)練與推理工具鏈的解耦。與此同時(shí),產(chǎn)業(yè)鏈上游廠商對(duì)開源社區(qū)的大量投入,將為中下游企業(yè)和個(gè)人帶來工具鏈的技術(shù)紅利,降低其研發(fā)門檻和成本,筆者認(rèn)為微軟、臉書、英偉達(dá)3家上游廠商主推的開源工具鏈尤其值得關(guān)注。
結(jié)語
對(duì)于人工智能技術(shù)過去10年發(fā)展取得的成就,有人歸因于數(shù)據(jù),也有人歸因于算力。未來人工智能技術(shù)發(fā)展,筆者大膽預(yù)測,算法將是核心驅(qū)動(dòng)力。同時(shí),算法研發(fā)的實(shí)際效率,除了算法結(jié)構(gòu)本身,還取決于設(shè)計(jì)者對(duì)先進(jìn)工具鏈的掌握程度。
未來10年,科技界是否能用更少的數(shù)據(jù),更經(jīng)濟(jì)的算力,獲得真正意義上的通用智能呢?我們拭目以待。
本文經(jīng)授權(quán)發(fā)布,版權(quán)歸原作者所有;內(nèi)容為作者獨(dú)立觀點(diǎn),不代表億歐立場。如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 馬云現(xiàn)身支付寶20周年紀(jì)念日:AI將改變一切,但不意味著決定一切
- 萬事達(dá)卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長風(fēng)萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會(huì)2023在上海開幕 攜手共建數(shù)智金融未來
- 移動(dòng)支付發(fā)展超預(yù)期:2022年交易額1.3萬億美元 注冊(cè)賬戶16億
- 定位“敏捷的財(cái)務(wù)收支管理平臺(tái)”,合思品牌升級(jí)發(fā)布會(huì)上釋放了哪些信號(hào)?
- 分貝通商旅+費(fèi)控+支付一體化戰(zhàn)略發(fā)布,一個(gè)平臺(tái)管理企業(yè)所有費(fèi)用支出
- IMF經(jīng)濟(jì)學(xué)家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進(jìn)公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國銀行業(yè)祭出限額措施
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。