性欧美18处19处破在线观看,欧美高清狂热视频视频,三级中文字幕电影全部

“模型誠可貴，算力價格高。”--百模大戰(zhàn)的硝煙尚未散去，算力緊缺的呼聲似猶在耳。

如今，哪怕強(qiáng)如OpenAI也會處于算力緊缺的狀態(tài)。這也衍生出產(chǎn)業(yè)界共同的挑戰(zhàn)：即當(dāng)算力資源愈發(fā)寶貴時，如何在同等算力當(dāng)量的情況下，更高效地訓(xùn)練模型，進(jìn)而獲得更好的模型精度和更好的智能涌現(xiàn)效果。

目前看，在“預(yù)訓(xùn)練+微調(diào)”成為大模型發(fā)展新范式的趨勢下，數(shù)據(jù)層面的創(chuàng)新正變得愈發(fā)關(guān)鍵。事實(shí)上，OpenAI CEO Sam Altman去年就強(qiáng)調(diào)，增加大模型的參數(shù)量不再是提升大模型能力的最有效手段，大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。

無獨(dú)有偶，國內(nèi)以源2.0為代表的大模型亦走在數(shù)據(jù)創(chuàng)新的最前沿，通過數(shù)據(jù)質(zhì)量的提升，讓算力、算法、數(shù)據(jù)三位一體產(chǎn)生更好的化學(xué)反應(yīng)，從而驅(qū)動基礎(chǔ)大模型的創(chuàng)新普惠。

數(shù)據(jù)質(zhì)量：大模型的短板

數(shù)據(jù)質(zhì)量正成為千億參數(shù)大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”（scaling law），即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?；蛘哐娱L模型訓(xùn)練時間，預(yù)訓(xùn)練模型的效果會越來越好。

但從GPT4起，情況開始發(fā)生變化。OpenAI GPT3.5 從基于預(yù)訓(xùn)練的范式下開展轉(zhuǎn)向“預(yù)訓(xùn)練+微調(diào)”的范式，微調(diào)的重要性愈發(fā)突出，在這種新的情況下，是否依舊還是我們投入的算力規(guī)模越大，模型的效果就越好？我們投入的數(shù)據(jù)規(guī)模越大，模型效果就越好？

答案顯然是否定且值得需重新思考的。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集對于提高模型精度、可解釋性和減少訓(xùn)練時長大有裨益。正如著名人工智能專家吳恩達(dá)所言，AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”，高質(zhì)量的訓(xùn)練數(shù)據(jù)集決定著模型的精度與表現(xiàn)。

因此，數(shù)據(jù)層面需要適應(yīng)“預(yù)訓(xùn)練+微調(diào)”范式下不同階段的需求，追求數(shù)據(jù)質(zhì)量將會成為所有大模型接下來的重點(diǎn)。

但數(shù)據(jù)質(zhì)量的提升絕非易事，尤其是高質(zhì)量數(shù)據(jù)的匱乏可能成為一種常態(tài)。以GPT3為例，其開發(fā)文檔顯示，45TB純文本數(shù)據(jù)經(jīng)過質(zhì)量過濾之后獲得570GB文本，有效數(shù)據(jù)僅僅只有1.27%；同樣，浪潮信息在源2.0的訓(xùn)練中，清洗了12PB規(guī)模的原始網(wǎng)頁數(shù)據(jù)，最后提取跟數(shù)學(xué)相關(guān)的數(shù)據(jù)僅僅只有10GB不到。

眾所周知，高質(zhì)量數(shù)據(jù)可以帶來更好的模型性能，包括推理能力，但高質(zhì)量數(shù)據(jù)也將在未來一段時間消耗殆盡。根據(jù)《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預(yù)測，語言數(shù)據(jù)將于 2030~2040 年耗盡，其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于 2026 年耗盡。此外，視覺數(shù)據(jù)將于 2030~2060 年耗盡。

如何在數(shù)據(jù)層面彌補(bǔ)大模型發(fā)展的短板？此時此刻，增加數(shù)據(jù)來源，采用數(shù)據(jù)增強(qiáng)以及合成數(shù)據(jù)的新技術(shù)方法，逐漸成為牽引數(shù)據(jù)質(zhì)量提升的關(guān)鍵所在。

提升數(shù)據(jù)質(zhì)量：突破的鑰匙

高質(zhì)量數(shù)據(jù)是大模型能力躍遷的關(guān)鍵鑰匙。

要想獲得高質(zhì)量數(shù)據(jù)，首先需要讓多樣性數(shù)據(jù)比例更加合理。過去，大模型的訓(xùn)練往往過于依賴互聯(lián)網(wǎng)數(shù)據(jù)，書籍、科學(xué)論文等專業(yè)語言數(shù)據(jù)占比較少。但互聯(lián)網(wǎng)公開數(shù)據(jù)集的數(shù)據(jù)質(zhì)量往往低于書籍、科學(xué)論文等更專業(yè)的語言數(shù)據(jù)，增加專業(yè)數(shù)據(jù)占比就成為提升數(shù)據(jù)質(zhì)量的一大關(guān)鍵路徑。

事實(shí)上，國家也意識到增加專業(yè)數(shù)據(jù)集對于發(fā)展大模型的重要價值。最新的《“數(shù)據(jù)要素×”三年行動計劃（2024—2026年）》就明確指出以科學(xué)數(shù)據(jù)支持大模型開發(fā)，深入挖掘各類科學(xué)數(shù)據(jù)和科技文獻(xiàn)，建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集，支持開展人工智能大模型開發(fā)和訓(xùn)練。

對于大模型廠商而言，增加百科、書籍、期刊等高質(zhì)量數(shù)據(jù)的比重已是大勢所趨。浪潮信息也是最早有意識增加高質(zhì)量數(shù)據(jù)來源的廠商之一，其源 2.0大模型有意識地減少互聯(lián)網(wǎng)公開數(shù)據(jù)集，增加百科、書籍、期刊等高質(zhì)量數(shù)據(jù)，同時引入代碼和數(shù)學(xué)數(shù)據(jù)，甚至針對120PB海量規(guī)模的社群數(shù)據(jù)也進(jìn)行有針對性的清洗和提純，從而達(dá)到廣泛增加高質(zhì)量數(shù)據(jù)的目的。

另外，考慮到中國人工智能領(lǐng)域數(shù)據(jù)供給產(chǎn)業(yè)生態(tài)不完善、獲取成本高等真實(shí)情況，利用人工方式來獲得高質(zhì)量數(shù)據(jù)的的方式就像“刀耕火種”，成本高昂且效率低下，對于很多大模型猶如杯水車薪。因此，采用技術(shù)手段自動合成數(shù)據(jù)的方法成為彌補(bǔ)高質(zhì)量數(shù)據(jù)不足的重要手段。

所謂生成數(shù)據(jù)，即通過大模型生成新的數(shù)據(jù)，補(bǔ)充模型訓(xùn)練中真實(shí)數(shù)據(jù)的不足。Gartner就預(yù)測，2024 年用于訓(xùn)練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù)，到2030年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。

OpenAI GPT-4就非?？粗睾铣蓴?shù)據(jù)，其技術(shù)文檔中重點(diǎn)提到生成數(shù)據(jù)在訓(xùn)練中關(guān)鍵作用。目前，合成數(shù)據(jù)在自動駕駛、金融欺詐、醫(yī)療等場景有著巨大需求。

在國內(nèi)，目前真正使用合成數(shù)據(jù)的大模型相對較少。其中，源2.0大模型是注重合成數(shù)據(jù)的代表，已通過豐富實(shí)踐形成了一套數(shù)據(jù)構(gòu)建的方法論，實(shí)現(xiàn)利用大模型的數(shù)據(jù)生產(chǎn)及過濾方法，在保證數(shù)據(jù)多樣性的同時，在每一個類別上提升數(shù)據(jù)質(zhì)量，從而獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。

綜合來看，AGI絕不僅僅局限在語言與文字，發(fā)展多模態(tài)大模型已經(jīng)成為大勢所趨，無疑會進(jìn)一步加大構(gòu)建高質(zhì)量數(shù)據(jù)集的難度，通過擴(kuò)大真實(shí)數(shù)據(jù)來源、構(gòu)建高質(zhì)量的合成數(shù)據(jù)集在未來會越來越重要。

開源+共訓(xùn)：大模型高質(zhì)量發(fā)展的關(guān)鍵

經(jīng)歷了2023年的百模大戰(zhàn)，高質(zhì)量發(fā)展已成為大模型產(chǎn)業(yè)界的共識。

事實(shí)上，在算力資源、高質(zhì)量數(shù)據(jù)資源日趨寶貴的今天，我們再也不能陷入重復(fù)造輪子的商業(yè)陷阱了，大模型走向開源+共訓(xùn)符合未來的高質(zhì)量發(fā)展需求。

以數(shù)據(jù)層面為例，IDC預(yù)測，到2025年中國有望成為全球最大的數(shù)據(jù)圈。但國內(nèi)開源意識不足，數(shù)據(jù)開放程度依然較低，雖然已有不少企業(yè)與科研機(jī)構(gòu)構(gòu)建了開源數(shù)據(jù)集，但與我國整體數(shù)據(jù)龐大體量相比顯得極為渺小。而通過開源開放的生態(tài)，有利于帶動高質(zhì)量數(shù)據(jù)集的利用效率，提升模型泛化應(yīng)用能力。

當(dāng)下，浪潮信息的源2.0是“開源+共訓(xùn)路線”的堅定實(shí)踐者。去年11月，浪潮信息正式發(fā)布源2.0基礎(chǔ)大模型，包括1026億、518億、21億等三種參數(shù)規(guī)模的模型，在編程、推理、邏輯等方面展示出了先進(jìn)的能力，并且宣布全面開源。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計，源大模型的開放數(shù)據(jù)集目前已經(jīng)被國內(nèi)50家大模型所采用。

據(jù)悉，浪潮信息在“源2.0”的研發(fā)過程中，針對算法、數(shù)據(jù)和計算方面進(jìn)行了創(chuàng)新，包括新型的注意力算法結(jié)構(gòu)、數(shù)據(jù)合成方法、非均勻流水并行策略等，并采取開源+共訓(xùn)模式，將產(chǎn)業(yè)鏈各個環(huán)節(jié)有效串聯(lián)起來，實(shí)現(xiàn)整個產(chǎn)業(yè)的快速協(xié)同發(fā)展，為國內(nèi)大模型高質(zhì)量發(fā)展開辟了一條有效路徑。

例如，浪潮信息接下來會圍繞開源社區(qū)，廣泛收集開發(fā)者需求推動大模型能力與實(shí)際應(yīng)用場景的適配，加速大模型在不同行業(yè)、場景中的商業(yè)化落地。

總體來看，AGI時代的奇點(diǎn)已經(jīng)由大模型開啟，但大模型“大力出奇跡”的時代已經(jīng)結(jié)束。正如一句與數(shù)據(jù)相關(guān)的名言：Garbage in，Garbage out，數(shù)據(jù)質(zhì)量的高低也是大模型高質(zhì)量發(fā)展的關(guān)鍵所在。面向未來，開源+共訓(xùn)有利于大模型匯聚包括算法、數(shù)據(jù)等在內(nèi)的技術(shù)創(chuàng)新力量，形成創(chuàng)新與成長的土壤，真正激發(fā)大模型無窮的能力。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點(diǎn)，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？

下一篇

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？

下一篇

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？