人工智能計算中心是建設(shè)新一代人工智能產(chǎn)業(yè)集群的關(guān)鍵基礎(chǔ)設(shè)施。近年來,我國多個中心城市加速推進(jìn)人工智能產(chǎn)業(yè)布局,以期在新一輪科技革命的機(jī)遇之中搶占發(fā)展先機(jī),而搭建集約化、一體式人工智能計算中心也就成為了各地新基建藍(lán)圖中的重大工程。
眾所周知,算力、算法、數(shù)據(jù)是人工智能的三駕馬車。如果沒有算力的支撐,人工智能將難以走向應(yīng)用普及。因此,在人工智能計算中心建設(shè)熱潮中,將數(shù)據(jù)和算法協(xié)調(diào)起來的AI芯片便成為最受關(guān)注的模塊。
當(dāng)前,各行各業(yè)對適配AI模型的訓(xùn)練需求呈爆發(fā)式增長,而一個高質(zhì)量的AI模型是通過訓(xùn)練和持續(xù)迭代優(yōu)化而來的。當(dāng)大模型、多模態(tài)算法模型訓(xùn)練逐漸成為主流,人工智能算力需求每3.5個月就翻一番,企業(yè)在AI研發(fā)中進(jìn)行模型訓(xùn)練的算力成本居高不下。因此,能否為企業(yè)和科研機(jī)構(gòu)提供可持續(xù)、高適配、高彈性的訓(xùn)練算力成為衡量各地人工智能計算中心“含金量”的核心指標(biāo)。如果沒有技術(shù)足夠成熟的訓(xùn)練芯片來提供訓(xùn)練算力保障,就難以保障平臺產(chǎn)出算法模型的效率,那么以億為成本而建設(shè)的人工智能計算中心也就成了“雷聲大雨點小”的空殼工程。
訓(xùn)練芯片和推理芯片之別
在實際的人工智能計算中心硬件布局中,芯片主要適配于推理和訓(xùn)練兩大場景。訓(xùn)練芯片和推理芯片之間的邏輯差別可以理解為:訓(xùn)練芯片像老師,一遍一遍教一個完全不認(rèn)字的小孩從零開始識字,一遍不會就再教一遍,直到教會為止;而推理芯片則是已經(jīng)學(xué)會識字的小孩,閱讀不同的書本時,可以識別出書本中的字。
換句話說,訓(xùn)練是從現(xiàn)有的數(shù)據(jù)中學(xué)習(xí)新的能力,而推理則是將已經(jīng)訓(xùn)練好的能力運用到實際場景中。離開了訓(xùn)練的推理,就相當(dāng)于空中樓閣。所以,相較于推理芯片,訓(xùn)練芯片是人工智能不斷進(jìn)化的基礎(chǔ),也是眾多AI芯片廠商需要著力攻克的研發(fā)高地。
訓(xùn)練芯片有哪些特點
那么,與推理芯片相比,訓(xùn)練芯片在技術(shù)上具有哪些特點?
首先,訓(xùn)練芯片具備浮點運算能力。復(fù)雜模型的訓(xùn)練過程中,需通過精細(xì)的浮點表達(dá)能力對上千億個浮點參數(shù)進(jìn)行微調(diào)數(shù)十萬步。無浮點運算能力的芯片如用于訓(xùn)練將增加約40%的額外操作,以及至少4倍的內(nèi)存讀寫次數(shù)。
其次,訓(xùn)練芯片具有專用AI加速單元,并具有高能效比的特點。當(dāng)前有個別廠商采用2016年國外品牌GPU架構(gòu),缺少AI加速單元,導(dǎo)致其AI訓(xùn)練能效比差,且能耗劇增。與之相比,配置矩陣加速單元的訓(xùn)練芯片可使AI訓(xùn)練效率提升10倍。
為AI產(chǎn)業(yè)提供充沛算力,需要在AI處理器硬件上有扎實的技術(shù)積累。據(jù)了解,目前許多人工智能計算中心使用的由昇騰 910 AI訓(xùn)練處理器,原生具備訓(xùn)練能力,集群性能業(yè)界領(lǐng)先。目前,該集群可以在28秒完成基于Resnet-50模型訓(xùn)練(持續(xù)保持業(yè)界第一),并且性能還將持續(xù)提升。同樣,基于昇騰AI基礎(chǔ)軟硬件平臺的“鵬城云腦II”榮獲AIPerf(世界人工智能算力)第一名,并再次刷新IO500(高性能計算存儲系統(tǒng)性能排行榜-全系統(tǒng)輸入輸出和10節(jié)點系統(tǒng))兩項世界冠軍。
訓(xùn)練芯片市場前景廣闊
隨著自動駕駛、生物信息識別、機(jī)器人、自動巡檢等人工智能終端產(chǎn)品和應(yīng)用越來越普遍化,人工智能產(chǎn)業(yè)集群的價值不可估量。在從理論走向應(yīng)用的產(chǎn)業(yè)化過程中,訓(xùn)練芯片作為算力平臺的“心臟”,其市場也持續(xù)蓬勃發(fā)展。
研究機(jī)構(gòu)賽迪顧問發(fā)布的報告顯示,從2019年到2021年,中國云端訓(xùn)練AI芯片市場累計增長了約127%。2021年,云端訓(xùn)練芯片市場規(guī)模將達(dá)到139.3億元。據(jù)預(yù)測,從2019年到2024年,云端訓(xùn)練芯片的年復(fù)合增長率或達(dá)到32%。
以全國第一個人工智能計算中心——武漢人工智能計算中心為例,其一期建設(shè)規(guī)模為100P FLOPS AI算力,今年5月31投運當(dāng)天算力負(fù)載便達(dá)到了90%,投運之后持續(xù)滿負(fù)荷運行。如今,武漢人工智能計算中心仍在持續(xù)擴(kuò)容中。9月初正式上線的西安未來人工智能計算中心一期規(guī)劃300P FLOPS FP16(每秒30億億次半精度浮點計算)計算能力。作為西北地區(qū)首個大規(guī)模人工智能算力集群,其算力平臺承載力達(dá)到了當(dāng)下我國同類平臺中的領(lǐng)先的水平。
市場的高速增長預(yù)示著,當(dāng)人工智能發(fā)展到深水區(qū)階段,各行各業(yè)對AI訓(xùn)練算力的需求將長期保持幾何級增長。而訓(xùn)練芯片作為訓(xùn)練算力的引擎,也是人工智能模型訓(xùn)練的“基礎(chǔ)中的基礎(chǔ)”,也將作為人工智能計算中心的靈魂得到更廣泛的重視。相信,在我國極為豐富的AI應(yīng)用生態(tài)優(yōu)勢引領(lǐng)下,無論是訓(xùn)練芯片還是推理芯片,都將得到更為長足的快速發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )