千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?

“模型誠可貴,算力價格高。”--百模大戰(zhàn)的硝煙尚未散去,算力緊缺的呼聲似猶在耳。

如今,哪怕強如OpenAI也會處于算力緊缺的狀態(tài)。這也衍生出產(chǎn)業(yè)界共同的挑戰(zhàn):即當算力資源愈發(fā)寶貴時,如何在同等算力當量的情況下,更高效地訓練模型,進而獲得更好的模型精度和更好的智能涌現(xiàn)效果。

目前看,在“預訓練+微調(diào)”成為大模型發(fā)展新范式的趨勢下,數(shù)據(jù)層面的創(chuàng)新正變得愈發(fā)關(guān)鍵。事實上,OpenAI CEO Sam Altman去年就強調(diào),增加大模型的參數(shù)量不再是提升大模型能力的最有效手段,大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。

無獨有偶,國內(nèi)以源2.0為代表的大模型亦走在數(shù)據(jù)創(chuàng)新的最前沿,通過數(shù)據(jù)質(zhì)量的提升,讓算力、算法、數(shù)據(jù)三位一體產(chǎn)生更好的化學反應,從而驅(qū)動基礎大模型的創(chuàng)新普惠。

數(shù)據(jù)質(zhì)量:大模型的短板

數(shù)據(jù)質(zhì)量正成為千億參數(shù)大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”(scaling law),即獨立增加訓練數(shù)據(jù)量、模型參數(shù)規(guī)模或者延長模型訓練時間,預訓練模型的效果會越來越好。

但從GPT4起,情況開始發(fā)生變化。OpenAI GPT3.5 從基于預訓練的范式下開展轉(zhuǎn)向“預訓練+微調(diào)”的范式,微調(diào)的重要性愈發(fā)突出,在這種新的情況下,是否依舊還是我們投入的算力規(guī)模越大,模型的效果就越好?我們投入的數(shù)據(jù)規(guī)模越大,模型效果就越好?

答案顯然是否定且值得需重新思考的。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集對于提高模型精度、可解釋性和減少訓練時長大有裨益。正如著名人工智能專家吳恩達所言,AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”,高質(zhì)量的訓練數(shù)據(jù)集決定著模型的精度與表現(xiàn)。

因此,數(shù)據(jù)層面需要適應“預訓練+微調(diào)”范式下不同階段的需求,追求數(shù)據(jù)質(zhì)量將會成為所有大模型接下來的重點。

但數(shù)據(jù)質(zhì)量的提升絕非易事,尤其是高質(zhì)量數(shù)據(jù)的匱乏可能成為一種常態(tài)。以GPT3為例,其開發(fā)文檔顯示,45TB純文本數(shù)據(jù)經(jīng)過質(zhì)量過濾之后獲得570GB文本,有效數(shù)據(jù)僅僅只有1.27%;同樣,浪潮信息在源2.0的訓練中,清洗了12PB規(guī)模的原始網(wǎng)頁數(shù)據(jù),最后提取跟數(shù)學相關(guān)的數(shù)據(jù)僅僅只有10GB不到。

眾所周知,高質(zhì)量數(shù)據(jù)可以帶來更好的模型性能,包括推理能力,但高質(zhì)量數(shù)據(jù)也將在未來一段時間消耗殆盡。根據(jù)《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預測,語言數(shù)據(jù)將于 2030~2040 年耗盡,其中能訓練出更好性能的高質(zhì)量語言數(shù)據(jù)將于 2026 年耗盡。此外,視覺數(shù)據(jù)將于 2030~2060 年耗盡。

如何在數(shù)據(jù)層面彌補大模型發(fā)展的短板?此時此刻,增加數(shù)據(jù)來源,采用數(shù)據(jù)增強以及合成數(shù)據(jù)的新技術(shù)方法,逐漸成為牽引數(shù)據(jù)質(zhì)量提升的關(guān)鍵所在。

提升數(shù)據(jù)質(zhì)量:突破的鑰匙

高質(zhì)量數(shù)據(jù)是大模型能力躍遷的關(guān)鍵鑰匙。

要想獲得高質(zhì)量數(shù)據(jù),首先需要讓多樣性數(shù)據(jù)比例更加合理。過去,大模型的訓練往往過于依賴互聯(lián)網(wǎng)數(shù)據(jù),書籍、科學論文等專業(yè)語言數(shù)據(jù)占比較少。但互聯(lián)網(wǎng)公開數(shù)據(jù)集的數(shù)據(jù)質(zhì)量往往低于書籍、科學論文等更專業(yè)的語言數(shù)據(jù),增加專業(yè)數(shù)據(jù)占比就成為提升數(shù)據(jù)質(zhì)量的一大關(guān)鍵路徑。

事實上,國家也意識到增加專業(yè)數(shù)據(jù)集對于發(fā)展大模型的重要價值。最新的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》就明確指出以科學數(shù)據(jù)支持大模型開發(fā),深入挖掘各類科學數(shù)據(jù)和科技文獻,建設高質(zhì)量語料庫和基礎科學數(shù)據(jù)集,支持開展人工智能大模型開發(fā)和訓練。

對于大模型廠商而言,增加百科、書籍、期刊等高質(zhì)量數(shù)據(jù)的比重已是大勢所趨。浪潮信息也是最早有意識增加高質(zhì)量數(shù)據(jù)來源的廠商之一,其源 2.0大模型有意識地減少互聯(lián)網(wǎng)公開數(shù)據(jù)集,增加百科、書籍、期刊等高質(zhì)量數(shù)據(jù),同時引入代碼和數(shù)學數(shù)據(jù),甚至針對120PB海量規(guī)模的社群數(shù)據(jù)也進行有針對性的清洗和提純,從而達到廣泛增加高質(zhì)量數(shù)據(jù)的目的。

另外,考慮到中國人工智能領(lǐng)域數(shù)據(jù)供給產(chǎn)業(yè)生態(tài)不完善、獲取成本高等真實情況,利用人工方式來獲得高質(zhì)量數(shù)據(jù)的的方式就像“刀耕火種”,成本高昂且效率低下,對于很多大模型猶如杯水車薪。因此,采用技術(shù)手段自動合成數(shù)據(jù)的方法成為彌補高質(zhì)量數(shù)據(jù)不足的重要手段。

所謂生成數(shù)據(jù),即通過大模型生成新的數(shù)據(jù),補充模型訓練中真實數(shù)據(jù)的不足。Gartner就預測,2024 年用于訓練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù),到2030年大模型使用的絕大部分數(shù)據(jù)將由人工智能合成。

OpenAI GPT-4就非??粗睾铣蓴?shù)據(jù),其技術(shù)文檔中重點提到生成數(shù)據(jù)在訓練中關(guān)鍵作用。目前,合成數(shù)據(jù)在自動駕駛、金融欺詐、醫(yī)療等場景有著巨大需求。

在國內(nèi),目前真正使用合成數(shù)據(jù)的大模型相對較少。其中,源2.0大模型是注重合成數(shù)據(jù)的代表,已通過豐富實踐形成了一套數(shù)據(jù)構(gòu)建的方法論,實現(xiàn)利用大模型的數(shù)據(jù)生產(chǎn)及過濾方法,在保證數(shù)據(jù)多樣性的同時,在每一個類別上提升數(shù)據(jù)質(zhì)量,從而獲取高質(zhì)量的訓練數(shù)據(jù)。

綜合來看,AGI絕不僅僅局限在語言與文字,發(fā)展多模態(tài)大模型已經(jīng)成為大勢所趨,無疑會進一步加大構(gòu)建高質(zhì)量數(shù)據(jù)集的難度,通過擴大真實數(shù)據(jù)來源、構(gòu)建高質(zhì)量的合成數(shù)據(jù)集在未來會越來越重要。

開源+共訓:大模型高質(zhì)量發(fā)展的關(guān)鍵

經(jīng)歷了2023年的百模大戰(zhàn),高質(zhì)量發(fā)展已成為大模型產(chǎn)業(yè)界的共識。

事實上,在算力資源、高質(zhì)量數(shù)據(jù)資源日趨寶貴的今天,我們再也不能陷入重復造輪子的商業(yè)陷阱了,大模型走向開源+共訓符合未來的高質(zhì)量發(fā)展需求。

以數(shù)據(jù)層面為例,IDC預測,到2025年中國有望成為全球最大的數(shù)據(jù)圈。但國內(nèi)開源意識不足,數(shù)據(jù)開放程度依然較低,雖然已有不少企業(yè)與科研機構(gòu)構(gòu)建了開源數(shù)據(jù)集,但與我國整體數(shù)據(jù)龐大體量相比顯得極為渺小。而通過開源開放的生態(tài),有利于帶動高質(zhì)量數(shù)據(jù)集的利用效率,提升模型泛化應用能力。

當下,浪潮信息的源2.0是“開源+共訓路線”的堅定實踐者。去年11月,浪潮信息正式發(fā)布源2.0基礎大模型,包括1026億、518億、21億等三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進的能力,并且宣布全面開源。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計,源大模型的開放數(shù)據(jù)集目前已經(jīng)被國內(nèi)50家大模型所采用。

據(jù)悉,浪潮信息在“源2.0”的研發(fā)過程中,針對算法、數(shù)據(jù)和計算方面進行了創(chuàng)新,包括新型的注意力算法結(jié)構(gòu)、數(shù)據(jù)合成方法、非均勻流水并行策略等,并采取開源+共訓模式,將產(chǎn)業(yè)鏈各個環(huán)節(jié)有效串聯(lián)起來,實現(xiàn)整個產(chǎn)業(yè)的快速協(xié)同發(fā)展,為國內(nèi)大模型高質(zhì)量發(fā)展開辟了一條有效路徑。

例如,浪潮信息接下來會圍繞開源社區(qū),廣泛收集開發(fā)者需求推動大模型能力與實際應用場景的適配,加速大模型在不同行業(yè)、場景中的商業(yè)化落地。

總體來看,AGI時代的奇點已經(jīng)由大模型開啟,但大模型“大力出奇跡”的時代已經(jīng)結(jié)束。正如一句與數(shù)據(jù)相關(guān)的名言:Garbage in,Garbage out,數(shù)據(jù)質(zhì)量的高低也是大模型高質(zhì)量發(fā)展的關(guān)鍵所在。面向未來,開源+共訓有利于大模型匯聚包括算法、數(shù)據(jù)等在內(nèi)的技術(shù)創(chuàng)新力量,形成創(chuàng)新與成長的土壤,真正激發(fā)大模型無窮的能力。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-01-15
千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?
千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?

長按掃碼 閱讀全文