7月2日消息(九九)AIGC的火熱推動(dòng)著AI大模型參數(shù)量從億級(jí)到萬億級(jí)的飆升。面對(duì)千億、萬億參數(shù)規(guī)模的大模型訓(xùn)練,僅僅是單次計(jì)算迭代內(nèi)梯度同步需要的通信量就達(dá)到百GB量級(jí),此外還有各種并行模式、加速框架引入的通信需求,使得傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐GPU集群的高效計(jì)算。只有不斷提升通信效率、把通信成本降到最低,才能充分利用計(jì)算資源。因此必須構(gòu)建一個(gè)全新的高性能網(wǎng)絡(luò)底座,用高速網(wǎng)絡(luò)的大帶寬助推集群計(jì)算的高效率。
在此背景下,騰訊7月1日宣布其自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),升級(jí)后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,支持超10萬卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。
騰訊云副總裁王亞晨
騰訊云副總裁王亞晨表示,AI大模型就像是一場F1比賽,騰訊云專門設(shè)計(jì)了星脈高性能算力網(wǎng)絡(luò)“賽道”,并自研了TiTa和TCCL網(wǎng)絡(luò)協(xié)議作為“道路控制系統(tǒng)與專業(yè)車隊(duì)”,共同讓“騰訊云高性能計(jì)算集群HCC的GPU服務(wù)器”這臺(tái)馬力強(qiáng)大的F1賽車發(fā)揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領(lǐng)先。同時(shí)配備了專業(yè)的搶修隊(duì),一旦故障發(fā)生,快速定位和搶救,讓賽事快速恢復(fù)運(yùn)行。
四大組件全面升級(jí),助力AI訓(xùn)練提速
王亞晨介紹,騰訊自研星脈網(wǎng)絡(luò)是一套軟硬協(xié)同的高性能網(wǎng)絡(luò)體系,包括自研網(wǎng)絡(luò)設(shè)備、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)四大關(guān)鍵組件,每個(gè)組件均采用了業(yè)界首創(chuàng)的騰訊核心技術(shù)。
硬件方面,騰訊星脈網(wǎng)絡(luò)是業(yè)界首個(gè)采用全自研網(wǎng)絡(luò)設(shè)備的高性能網(wǎng)絡(luò),包括交換機(jī)、自研光模塊、網(wǎng)卡等。自研交換機(jī)從25.6T容量升級(jí)到51.2T,同時(shí)在業(yè)界率先引入400G硅光模塊,速率翻倍,讓網(wǎng)絡(luò)延遲降低40%,支持超10萬卡大規(guī)模組網(wǎng)。
值得注意的是,星脈網(wǎng)絡(luò)2.0支持搭載騰訊自研的全新算力網(wǎng)卡,這是公共云業(yè)內(nèi)首款為AI訓(xùn)練設(shè)計(jì)的網(wǎng)卡,網(wǎng)卡采用最新一代 FPGA 芯片,整卡帶寬可達(dá)400Gbps,具備業(yè)界最高的3.2T整機(jī)通信帶寬。該自研算力網(wǎng)卡運(yùn)行著新一代騰訊自研通信協(xié)議TiTa,并搭載了騰訊獨(dú)有的主動(dòng)擁塞控制算法。
相比起上一代,TiTa協(xié)議2.0從部署在交換機(jī)轉(zhuǎn)移到了端側(cè)的網(wǎng)卡上,從原來的被動(dòng)擁塞算法升級(jí)到了更為智能的主動(dòng)擁塞控制算法,可主動(dòng)調(diào)整數(shù)據(jù)包發(fā)送速率,從而避免網(wǎng)絡(luò)擁堵;并通過擁堵智能調(diào)度,實(shí)現(xiàn)網(wǎng)絡(luò)擁塞快速自愈。這讓混合專家(MoE)模型訓(xùn)練下網(wǎng)絡(luò)通信性能相比1.0提升30%,帶來訓(xùn)練效率10%的提升。
專為星脈網(wǎng)絡(luò)設(shè)計(jì)的高性能集合通信庫TCCL,也進(jìn)行了升級(jí)。通過創(chuàng)新的NVLINK+NET異構(gòu)并行通信、Auto-TuneNetworkExpert自適應(yīng)算法等通信庫的升級(jí),在MoE模型訓(xùn)練下,給星脈網(wǎng)絡(luò)帶來了30%的通信效率提升,讓模型訓(xùn)練效率提升10%。
TCCL 對(duì)外的接口跟原生通信庫接口完全一致的,主流AI大模型客戶不需要額外適配,只需要替換通信庫就可以發(fā)揮星脈的能力。
通信協(xié)議TiTa與通信庫TCCL的升級(jí)帶來的效果疊加,讓星脈網(wǎng)絡(luò)的通信效率提升60%,MoE大模型訓(xùn)練效率提升20%。
網(wǎng)絡(luò)的故障或任何單點(diǎn)的故障,將導(dǎo)致整個(gè)集群不可用,讓模型訓(xùn)練暫停。因此,網(wǎng)絡(luò)的高可用、穩(wěn)定性也極為重要。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),這也是星脈網(wǎng)絡(luò)第四大關(guān)鍵組件。
運(yùn)營系統(tǒng)2.0新增騰訊獨(dú)家技術(shù)靈境仿真平臺(tái),從原來僅能定位網(wǎng)絡(luò)問題,到可定位GPU節(jié)點(diǎn)問題,實(shí)現(xiàn)萬卡級(jí)訓(xùn)練故障卡頓、慢節(jié)點(diǎn)分鐘級(jí)定位。這對(duì)星脈網(wǎng)絡(luò)進(jìn)行了360度無死角的立體監(jiān)控,可以更快發(fā)現(xiàn)與定位網(wǎng)絡(luò)問題,讓整體故障的排查時(shí)間再次大幅縮短,故障時(shí)盡快恢復(fù)續(xù)訓(xùn)。
打造最適合大模型的云
據(jù)了解,目前,騰訊云已經(jīng)面向AIGC場景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、AIGC存儲(chǔ)解決方案、向量數(shù)據(jù)庫以及行業(yè)大模型服務(wù)MaaS、天御AIGC內(nèi)容安全解決方案等大模型全鏈路云服務(wù)。超過80%的頭部大模型企業(yè)使用了騰訊云服務(wù)。
大模型訓(xùn)練集群在HCC將高性能云服務(wù)器作為節(jié)點(diǎn),滿配最新代次的GPU,節(jié)點(diǎn)之間通過自研星脈網(wǎng)絡(luò)互聯(lián),提供高性能、高帶寬和低延遲的一體化高性能計(jì)算產(chǎn)品。
騰訊云AIGC云存儲(chǔ)解決方案是國內(nèi)首個(gè)實(shí)現(xiàn)存儲(chǔ)引擎全面自研的云存儲(chǔ)解決方案,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍,需要的時(shí)間縮短一半。
騰訊云向量數(shù)據(jù)庫Tencent Cloud VectorDB每日支撐超過3700億次向量檢索請(qǐng)求,可支持千億級(jí)向量規(guī)模存儲(chǔ),百萬級(jí) QPS 及毫秒級(jí)查詢延遲,適用于大模型的訓(xùn)練推理、RAG場景、AI應(yīng)用以及搜索推薦服務(wù),實(shí)現(xiàn)企業(yè)數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。
騰訊云打造了天御AIGC全鏈路的內(nèi)容安全解決方案,提供包含數(shù)據(jù)服務(wù)、安全專家、機(jī)器審核、版權(quán)保護(hù)、客戶體驗(yàn)管理五大服務(wù)體系,護(hù)航企業(yè)從模型訓(xùn)練到事后運(yùn)營全過程的內(nèi)容安全建設(shè)。
王亞晨進(jìn)一步介紹,在自身AI基礎(chǔ)設(shè)施支撐下,騰訊自研的通用大模型騰訊混元大模型也在持續(xù)迭代。
借助基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、Angel機(jī)器學(xué)習(xí)平臺(tái)等自研底層技術(shù),騰訊搭建起萬卡AI訓(xùn)練集群,可以用更少的資源訓(xùn)練更大的模型,訓(xùn)練速度是主流框架的2.6倍;推理成本相比業(yè)界主流框架下降70%,并且支持國產(chǎn)主流硬件的適配。
騰訊混元已擴(kuò)展至萬億級(jí)參數(shù)規(guī)模,采用混合專家模型(MoE)結(jié)構(gòu),在通用基礎(chǔ)能力和專業(yè)應(yīng)用能力方面處于國內(nèi)主流大模型領(lǐng)先地位。無論是企業(yè)客戶還是個(gè)人開發(fā)者,都可以通過騰訊云上API直接調(diào)用騰訊混元,實(shí)現(xiàn)更便捷的智能化升級(jí)。騰訊還聯(lián)合生態(tài)伙伴,將大模型技術(shù)與20多個(gè)行業(yè)結(jié)合,提供超50個(gè)行業(yè)大模型解決方案。
大模型時(shí)代的來臨,將開創(chuàng)下一代云服務(wù),騰訊云致力于打造“最適合大模型的云”,也將持續(xù)升級(jí)底層AI基礎(chǔ)設(shè)施,助力企業(yè)把握AI時(shí)代。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 生成式人工智能:2025年值得預(yù)測的主要趨勢
- LED改造照明的優(yōu)勢:家居和商業(yè)
- 2025年網(wǎng)絡(luò)安全主要趨勢
- 2025年智能辦公趨勢
- 程建軍任中國移動(dòng)副總經(jīng)理、黨組成員
- 盤點(diǎn)光模塊行業(yè)2024:AI需求熱度不減,技術(shù)演進(jìn)明顯加速
- LightCounting:CPO發(fā)展現(xiàn)復(fù)蘇勢頭,部署或?qū)⒑芸扉_始
- 中國移動(dòng)小型化天線產(chǎn)品集采:規(guī)模為4.59萬面
- 價(jià)值1.59億元 訊飛中標(biāo)山東肥城人工智能行業(yè)大模型項(xiàng)目
- 房地產(chǎn)可再生能源儲(chǔ)存新技術(shù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。