極客網(wǎng)·極客觀察(朱飛)10月25日 在風(fēng)云變幻的AI大模型時(shí)代,科大訊飛與華為的聯(lián)合拓展令人印象深刻。過(guò)去幾年來(lái),雙方協(xié)同創(chuàng)新突破重重障礙,一次次證明國(guó)產(chǎn)算力基礎(chǔ)設(shè)施可以支撐國(guó)產(chǎn)AI大模型良性發(fā)展,在關(guān)鍵性能和體驗(yàn)上不輸世界領(lǐng)先玩家,同時(shí)具備更佳的成本效益。
10月24日,以“萬(wàn)物智聯(lián) 生生不息”為主題的科大訊飛全球1024開(kāi)發(fā)者節(jié)隆重舉行。下午的央國(guó)企論壇上,科大訊飛與華為再度強(qiáng)強(qiáng)聯(lián)手,共同發(fā)布訊飛星火&華為數(shù)據(jù)存儲(chǔ)AI解決方案,將AI集群算力利用率提升30%,助力國(guó)產(chǎn)大模型創(chuàng)新突圍,在業(yè)內(nèi)樹(shù)立起“以存強(qiáng)算”的又一標(biāo)桿。
該AI存儲(chǔ)解決方案通過(guò)華為OceanStor A系列全新硬件、訊飛星火基礎(chǔ)大模型軟硬協(xié)同,深度優(yōu)化,可支持萬(wàn)億參數(shù)大模型,大規(guī)模算力集群的訓(xùn)推任務(wù),實(shí)現(xiàn)訓(xùn)推全流程加速,助力大模型算力利用率大幅提升,為業(yè)界輸出了一份凝結(jié)雙方技術(shù)與經(jīng)驗(yàn)的標(biāo)準(zhǔn)方案。
極致性能“以存強(qiáng)算”,AI集群算力利用率提升超30%
根據(jù)規(guī)模定律(Scaling Law),更強(qiáng)的算力加上更多的有效訓(xùn)練數(shù)據(jù),可以得到更好的AI大模型。這意味著,大模型的訓(xùn)練和推理不僅需要強(qiáng)大的算力支持,還需要高效的存儲(chǔ)系統(tǒng)來(lái)保證數(shù)據(jù)的快速讀寫和處理,存儲(chǔ)系統(tǒng)的性能直接影響到大模型的訓(xùn)練效率和效果?。
為了解決大模型訓(xùn)練中的存儲(chǔ)挑戰(zhàn),需要采用高性能的存儲(chǔ)方案。例如,使用高性能NAS存儲(chǔ)系統(tǒng)可以顯著提高數(shù)據(jù)讀寫速度,減少訓(xùn)練過(guò)程中的等待時(shí)間?。此外,優(yōu)化存儲(chǔ)架構(gòu)和采用更適合大模型訓(xùn)練的存儲(chǔ)解決方案,也可以提高訓(xùn)練效率?。
此番發(fā)布的訊飛星火&華為數(shù)據(jù)存儲(chǔ)AI解決方案,正采用了華為新一代OceanStor A系列AI存儲(chǔ),通過(guò)創(chuàng)新數(shù)控分離架構(gòu),高性能并行客戶端,實(shí)現(xiàn)了百TB級(jí)帶寬,百億級(jí)IOPS,將訓(xùn)練集加載效率提升8倍,斷點(diǎn)續(xù)訓(xùn)速度提升4倍,最終使得AI集群算力的利用率提升了超過(guò)30%。
資料顯示,隨著大模型集群規(guī)模增長(zhǎng),集群的算力利用率并未同步提升,千卡以上大模型算力利用率不足50%。而科大訊飛聯(lián)合華為搭建的大規(guī)模AI集群,算力利用率常年保持在60%以上的高位,大幅領(lǐng)先于業(yè)內(nèi)水平,背后的支撐之一正是華為數(shù)據(jù)存儲(chǔ)提供的高性能存力底座。
超大規(guī)模調(diào)度,AI數(shù)據(jù)湖讓大模型數(shù)據(jù)全局可管可用
在追求存儲(chǔ)性能的同時(shí),存儲(chǔ)容量也是大模型存力底座的關(guān)鍵。隨著AI技術(shù)快速發(fā)展,AI大模型從單模態(tài)發(fā)展到多模態(tài),短短數(shù)年時(shí)間大模型訓(xùn)練的數(shù)據(jù)量已呈現(xiàn)1000倍的增長(zhǎng),亟需為AI算力集群建設(shè)AI數(shù)據(jù)湖,規(guī)模擴(kuò)展并打破數(shù)據(jù)煙囪,實(shí)現(xiàn)全局流動(dòng)可管可用。
大模型訓(xùn)練需要處理的數(shù)據(jù)通常以圖片、文檔等小文件的形式存在,傳統(tǒng)的存儲(chǔ)系統(tǒng)面對(duì)這些小文件存在加載速度慢的問(wèn)題,影響訓(xùn)練效率?。企業(yè)擁抱大模型首當(dāng)其沖便是要對(duì)這些海量多源異構(gòu)數(shù)據(jù)進(jìn)行高效管理,做好數(shù)據(jù)歸集、預(yù)處理等準(zhǔn)備工作,才能保障大模型訓(xùn)練的效率及效果。
在這個(gè)維度,華為新一代OceanStor A系列AI存儲(chǔ)具備無(wú)損多協(xié)議互通、冷熱數(shù)據(jù)智能分級(jí)專業(yè)存儲(chǔ)能力,支持512控橫向大規(guī)模擴(kuò)展能力,支持EB級(jí)存儲(chǔ)空間;通過(guò)使用統(tǒng)一的AI數(shù)據(jù)湖存儲(chǔ)大模型數(shù)據(jù),可實(shí)現(xiàn)冷熱數(shù)據(jù)分級(jí)存儲(chǔ),跨越數(shù)據(jù)孤島,打破數(shù)據(jù)界限,確保了模型內(nèi)數(shù)據(jù)的高效流動(dòng),為大模型訓(xùn)練做好充分的數(shù)據(jù)準(zhǔn)備。
伴隨著訊飛星火&華為數(shù)據(jù)存儲(chǔ)AI解決方案的發(fā)布,訊飛星火訓(xùn)推平臺(tái)的AI數(shù)據(jù)湖成功經(jīng)驗(yàn)也浮出水面。據(jù)介紹,經(jīng)過(guò)多輪技術(shù)迭代演進(jìn),訊飛建設(shè)AI數(shù)據(jù)湖底座,有效支撐了十萬(wàn)億參數(shù)級(jí)別的通用多模態(tài)大模型訓(xùn)練,并大幅提升了集群算力利用率。
技術(shù)與經(jīng)驗(yàn)深度耦合,構(gòu)建AI Ready的數(shù)據(jù)基礎(chǔ)設(shè)施
值得注意的是,此次發(fā)布的訊飛星火&華為數(shù)據(jù)存儲(chǔ)AI解決方案并非雙方的“即興之作”,此前雙方便在存算分離、統(tǒng)一存儲(chǔ)平臺(tái)等方面展開(kāi)了合作。隨著大模型持續(xù)演進(jìn),兩家又于去年7月正式啟動(dòng)AI存力底座的聯(lián)合創(chuàng)新項(xiàng)目,旨在共同打造面向AI大模型場(chǎng)景的最佳數(shù)據(jù)存儲(chǔ)解決方案。
實(shí)際上,在驅(qū)動(dòng)AI發(fā)展的三駕馬車中,隨著算力逐漸趨同、算法加速收斂,蓬勃發(fā)展的數(shù)據(jù)成了影響大模型效果的核心要素。業(yè)界也逐漸意識(shí)到,數(shù)據(jù)規(guī)模和質(zhì)量決定AI智能的高度,為了提升從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、推理應(yīng)用的AI全流程效率,消除數(shù)據(jù)孤島帶來(lái)的海量數(shù)據(jù)搬遷,一個(gè)高性能、穩(wěn)定可靠的統(tǒng)一存力底座是必不可少的基石。
為此,科大訊飛在依托全國(guó)產(chǎn)化算力平臺(tái)打造訊飛星火認(rèn)知基礎(chǔ)大模型時(shí),也基于大模型數(shù)據(jù)和訓(xùn)練閉環(huán)全流程設(shè)計(jì)、訓(xùn)練和推理一體化設(shè)計(jì)的思路,自研超大規(guī)模大模型訓(xùn)練平臺(tái),迭代升級(jí)自家的大模型,先行先試趟出了一條探索Storage for AI、構(gòu)建AI Ready的數(shù)據(jù)基礎(chǔ)設(shè)施的“訊飛之道”。
資料顯示,在訊飛大模型訓(xùn)練平臺(tái)的加持下,訊飛星火大模型歷經(jīng)數(shù)個(gè)版本的升級(jí),目前已在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力、多模交互7大核心能力維度實(shí)現(xiàn)全國(guó)領(lǐng)先,通過(guò)中國(guó)信通院AIGC大模型基礎(chǔ)能力評(píng)測(cè)并獲得4+級(jí)的高評(píng)分,部分能力更是全面超過(guò)OpenAI的最新模型GPT-4 Turbo。
實(shí)踐出真知,相信這種源自訊飛星火與華為數(shù)據(jù)存儲(chǔ)雙方的技術(shù)與經(jīng)驗(yàn),深度耦合而“孵化”出來(lái)的AI存儲(chǔ)解決方案,必將能夠加速AI Ready的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),為客戶帶來(lái)高性能、高擴(kuò)展和更智能的AI訓(xùn)推體驗(yàn),推動(dòng)AI產(chǎn)業(yè)發(fā)展,將AI大模型的算力真正轉(zhuǎn)化為企業(yè)組織的新質(zhì)生產(chǎn)力!
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- MIT想用AI設(shè)計(jì)電動(dòng)汽車,大幅縮短設(shè)計(jì)時(shí)間并節(jié)省成本
- 美媒:一些中國(guó)大模型已經(jīng)追平甚至超越美國(guó)產(chǎn)品
- 透過(guò)這場(chǎng)開(kāi)發(fā)者圈的“年度盛典”,窺見(jiàn)華為開(kāi)發(fā)者生態(tài)構(gòu)建之道
- 谷歌Willow量子芯片有進(jìn)步 但離實(shí)用還很遙遠(yuǎn)
- LLM很難變成AGI?科學(xué)家:創(chuàng)造AGI理論上可行
- PON在園區(qū)網(wǎng)絡(luò)的“先天不足”,無(wú)源以太全光來(lái)拯救!
- 英特爾CEO黯然退場(chǎng)背后:芯片制造陷泥潭,AI起大早趕晚集
- 開(kāi)源5年樹(shù)立新里程 openEuler以智能 致世界
- 華為推出Mate 70手機(jī)引發(fā)高度關(guān)注 看外媒是如何評(píng)價(jià)的?
- 5G-A終端規(guī)模鋪開(kāi)響應(yīng)“以舊換新”,湖北移動(dòng)“機(jī)網(wǎng)套”協(xié)同刺激內(nèi)需
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。