123,123,123

25年前，著名的計(jì)算機(jī)程序員、開(kāi)源軟件運(yùn)動(dòng)旗手Eric S·Raymond出版了《大教堂與集市》一書(shū)，首次提出了開(kāi)放源代碼（Open Source）的概念，提倡軟件源代碼能被任何人查看、修改、分發(fā)。開(kāi)源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個(gè)角落。

在大模型和GenAI崛起的當(dāng)下，開(kāi)源再次成為業(yè)界關(guān)注焦點(diǎn)，對(duì)于開(kāi)源和閉源的爭(zhēng)論也久久未能平息。然而，大模型開(kāi)源相比傳統(tǒng)軟件開(kāi)源，情況要更加復(fù)雜。在開(kāi)源的定義、性質(zhì)、開(kāi)放內(nèi)容和開(kāi)源策略上都有完全不同的標(biāo)準(zhǔn)和內(nèi)容。因此，“開(kāi)源派”的帽子并不是那么好戴的。

“開(kāi)源”大模型再起波瀾

10月29日，全球權(quán)威的開(kāi)放源代碼促進(jìn)會(huì)（Open Source Initiative，OSI）發(fā)布了關(guān)于“開(kāi)源AI定義（OSAID）”1.0版本，正是這一定義引起了業(yè)界不小的波瀾。

根據(jù)OSAID，AI模型若要被視為“開(kāi)源”，必須提供足夠的信息，使任何人都可以“實(shí)質(zhì)性地”重建該模型。根據(jù)新定義，AI大模型若要被視為開(kāi)源有三個(gè)要點(diǎn)：

第一，訓(xùn)練數(shù)據(jù)透明性。必須提供足夠的信息，使任何人能夠“實(shí)質(zhì)性”地重建該模型，包括訓(xùn)練數(shù)據(jù)的來(lái)源、處理方式和獲取方式；

第二，完整代碼。需要公開(kāi)用于訓(xùn)練和運(yùn)行AI的完整源代碼，展示數(shù)據(jù)處理和訓(xùn)練的規(guī)范；

第三，模型參數(shù)。包括模型的權(quán)重和配置，需提供相應(yīng)的訪問(wèn)權(quán)限。

OSAID還列出了開(kāi)發(fā)者使用開(kāi)源AI時(shí)應(yīng)享有的使用權(quán)，例如可以為任何目的使用和修改模型，而無(wú)需獲得他人許可。

OSI稱，新定義是為了避免當(dāng)前行業(yè)中對(duì)“開(kāi)源大模型”的過(guò)度營(yíng)銷(xiāo)和使用誤解。據(jù)此標(biāo)準(zhǔn)，當(dāng)前市場(chǎng)上表面開(kāi)源的大模型幾乎都“名不副實(shí)”，包括大名鼎鼎的“開(kāi)源大模型”標(biāo)桿Meta的Llama和谷歌的Gemma。

過(guò)去兩三年中，OSI發(fā)現(xiàn)傳統(tǒng)軟件行業(yè)的“開(kāi)源”與大模型有著本質(zhì)區(qū)別，定義并不適用當(dāng)前火熱的AI大模型。因?yàn)锳I大模型遠(yuǎn)比傳統(tǒng)開(kāi)源軟件更復(fù)雜：它不僅包含代碼，還涉及大量的數(shù)據(jù)、復(fù)雜的模型架構(gòu)以及訓(xùn)練過(guò)程中的各種參數(shù)等。而這些數(shù)據(jù)的收集、整理、標(biāo)注等過(guò)程都對(duì)模型的性能和結(jié)果產(chǎn)生重要影響。傳統(tǒng)的開(kāi)源定義無(wú)法全面涵蓋這些新的要素，導(dǎo)致在AI領(lǐng)域的適用性不足。

目前，全球許多初創(chuàng)企業(yè)和大型科技公司，稱其AI模型發(fā)布策略為“開(kāi)源”，因?yàn)閷⒋竽Ｐ兔枋鰹椤伴_(kāi)源”會(huì)被開(kāi)發(fā)者認(rèn)為更易開(kāi)發(fā)、更低成本、更多資源。但研究人員發(fā)現(xiàn)，許多開(kāi)源模型實(shí)際上只是名義上開(kāi)源，它們限制了用戶可以對(duì)模型做什么，并且實(shí)際訓(xùn)練模型所需的數(shù)據(jù)是保密的，而且運(yùn)行這些模型所需要的計(jì)算能力超出了許多開(kāi)發(fā)者的能力范圍。例如，Meta要求月活躍用戶超過(guò)7億的平臺(tái)獲得特殊許可才能使用其Llama模型。

無(wú)獨(dú)有偶，今年6月，《Nature》的一篇報(bào)道指出，很多科技巨頭宣稱他們的AI模型是開(kāi)源的，但實(shí)際上并不完全透明。這些模型的數(shù)據(jù)和訓(xùn)練方法往往沒(méi)有公開(kāi)，這種做法被稱為 “開(kāi)源洗白”，嚴(yán)重妨礙了科學(xué)研究的可復(fù)現(xiàn)性和創(chuàng)新。

荷蘭拉德堡德大學(xué)的人工智能研究學(xué)者Andreas Liesenfeld和計(jì)算語(yǔ)言學(xué)家Mark Dingemanse也發(fā)現(xiàn)，雖然“開(kāi)源”一詞被廣泛使用，但許多模型最多只是“開(kāi)放權(quán)重”，關(guān)于系統(tǒng)構(gòu)建的其他大多數(shù)方面都隱藏了起來(lái)。

比如Llama和Gemma雖然自稱開(kāi)源或開(kāi)放，但實(shí)際上只是開(kāi)放權(quán)重，外部研究人員可以訪問(wèn)和使用預(yù)訓(xùn)練模型，但無(wú)法檢查或定制模型，也不知道模型如何針對(duì)特定任務(wù)進(jìn)行微調(diào)。

“開(kāi)源”大模型到底開(kāi)放了什么？

對(duì)于社區(qū)中的開(kāi)源軟件來(lái)說(shuō)，源代碼是其核心。開(kāi)發(fā)者通過(guò)閱讀源代碼可以掌握該軟件的全部細(xì)節(jié)，進(jìn)而可以為該軟件開(kāi)發(fā)新的功能、提供測(cè)試、修復(fù)Bug以及做代碼評(píng)審等。

開(kāi)發(fā)者提交自己的代碼到開(kāi)源項(xiàng)目，合入后就形成了新的版本。這就是開(kāi)放式協(xié)作開(kāi)發(fā)，它是開(kāi)源軟件的基本開(kāi)發(fā)模式，與普通軟件的開(kāi)發(fā)過(guò)程并沒(méi)有本質(zhì)的不同，只是開(kāi)發(fā)人員在地理位置上是分散的，他們依靠一些遠(yuǎn)程協(xié)作平臺(tái)，比如GitHub、Gitee 等，以開(kāi)放式治理的方式進(jìn)行協(xié)作。

但是對(duì)于大模型來(lái)說(shuō)，除了源代碼以外，數(shù)據(jù)是更為重要的核心資產(chǎn)。大模型是基于深度學(xué)習(xí)技術(shù)，通過(guò)海量數(shù)據(jù)進(jìn)行訓(xùn)練而來(lái)的深度學(xué)習(xí)模型，大模型能夠基于自然語(yǔ)言來(lái)實(shí)現(xiàn)文本的生成和理解，根據(jù)輸入的數(shù)據(jù)得到輸出，從而完成多類(lèi)型的通用任務(wù)。

在大模型的運(yùn)轉(zhuǎn)方面，主要就是訓(xùn)練和推理兩個(gè)過(guò)程，訓(xùn)練過(guò)程就是大模型產(chǎn)生的過(guò)程，訓(xùn)練過(guò)程的基本原理是在深度學(xué)習(xí)框架上運(yùn)行特定的模型架構(gòu)，然后把訓(xùn)練數(shù)據(jù)集輸入給架構(gòu)，再通過(guò)復(fù)雜的計(jì)算和多次迭代，最后得到一套想要的權(quán)重，而這套權(quán)重就是訓(xùn)練后的結(jié)果，也叫預(yù)訓(xùn)練模型。

預(yù)訓(xùn)練模型在經(jīng)過(guò)部署之后，以及在得到深度學(xué)習(xí)框架的支持之下，根據(jù)給定的輸入內(nèi)容得到對(duì)應(yīng)的輸出結(jié)果，這一套流程就是推理過(guò)程。

但需要說(shuō)明的是，在大模型訓(xùn)練和推理過(guò)程中，往往所需要的算力和資源的差異很大。在訓(xùn)練過(guò)程中，需要很多次的迭代計(jì)算，且需要具備海量GPU算力做支持，這樣才能在合理的時(shí)間范圍內(nèi)完成一次完整的訓(xùn)練過(guò)程。另外，在推理過(guò)程中，需要的算力資源卻相對(duì)較小，因?yàn)橥评淼臅r(shí)候在消費(fèi)型GPU以及普通的GPU上就可以完成一次一般類(lèi)型的推理。

根據(jù)目前情況來(lái)看，市面上絕大多數(shù)開(kāi)源大模型開(kāi)放出來(lái)的只是一套權(quán)重，也就是預(yù)訓(xùn)練模型，如果開(kāi)發(fā)者想要復(fù)現(xiàn)該開(kāi)源大模型的訓(xùn)練過(guò)程，需要通過(guò)優(yōu)化數(shù)據(jù)集、方法等訓(xùn)練出一個(gè)更優(yōu)質(zhì)的模型，而且需要數(shù)據(jù)集、訓(xùn)練過(guò)程和源代碼，但是大部分開(kāi)源大模型在開(kāi)源的時(shí)候并未提供上面所需要的這些內(nèi)容，就算開(kāi)發(fā)者掌握算力也無(wú)法復(fù)現(xiàn)。

市面上這些類(lèi)比傳統(tǒng)軟件的開(kāi)源大模型更像是一個(gè)開(kāi)放了的二進(jìn)制包，比如.exe文件，只是閉源、免費(fèi)開(kāi)放使用的，它其實(shí)是一個(gè)“免費(fèi)軟件”而不是一個(gè)“開(kāi)源軟件”。

大模型所謂的“開(kāi)源”，實(shí)際上是有三個(gè)對(duì)象，源碼只是其中之一，需要同時(shí)具備算法、高算力、大數(shù)據(jù)這三大要素，才有可能最終得到一款和ChatGPT類(lèi)似效果拔群的模型。

大模型的源碼就在算法，算法的核心部分主要包括有模型結(jié)構(gòu)和訓(xùn)練方法，這兩部分都有對(duì)應(yīng)的源碼。拿到源碼只是第一步，高算力和大數(shù)據(jù)是大多數(shù)企業(yè)無(wú)法逾越的門(mén)檻。相比高算力而言，大數(shù)據(jù)是最難獲取同時(shí)也是價(jià)值最高的部分。

那么，開(kāi)源大模型在不提供數(shù)據(jù)集和源代碼的前提下，是不是就不能進(jìn)行協(xié)作了呢？并非完全如此。

基于大模型的實(shí)現(xiàn)原理和技術(shù)特性，開(kāi)發(fā)者可以通過(guò)微調(diào)的方式對(duì)預(yù)訓(xùn)練大模型進(jìn)行能力擴(kuò)展，通過(guò)額外的數(shù)據(jù)集進(jìn)行進(jìn)一步的訓(xùn)練，優(yōu)化模型在特定領(lǐng)域的效果，得到一個(gè)新的衍生模型。

微調(diào)數(shù)據(jù)規(guī)模可大可小，但通常比原始訓(xùn)練數(shù)據(jù)集小得多，所以產(chǎn)生一個(gè)微調(diào)模型所需的算力成本也低得多。

因此，在開(kāi)源大模型界，出現(xiàn)了一些以主流預(yù)訓(xùn)練模型為基礎(chǔ)底座衍生的微調(diào)大模型，并形成了譜系。

大模型根本沒(méi)有“真”開(kāi)源？

從當(dāng)前各家大模型廠商的宣傳看，大多采用了“以偏概全”“避重就輕”的方式，很容易讓人混淆模型開(kāi)源和軟件開(kāi)源的概念，讓開(kāi)發(fā)者或企業(yè)誤認(rèn)為開(kāi)源大模型與開(kāi)源軟件是同等開(kāi)源水平。

無(wú)論是大模型還是軟件，發(fā)揮開(kāi)源優(yōu)勢(shì)，本質(zhì)上是吸收開(kāi)發(fā)者對(duì)大模型或軟件的改進(jìn)。但其實(shí)，目前所謂的開(kāi)源大模型無(wú)法真正像開(kāi)源軟件一樣，靠社區(qū)開(kāi)發(fā)者一起參與來(lái)提升效果和性能。應(yīng)用開(kāi)源大模型的企業(yè)，也很難迭代并優(yōu)化這些模型，以至于無(wú)法高效地應(yīng)用于企業(yè)場(chǎng)景。

至于什么是開(kāi)源大模型，業(yè)界并沒(méi)有像開(kāi)源軟件一樣達(dá)成一個(gè)明確的共識(shí)。

綜合來(lái)看，大模型的開(kāi)源和軟件開(kāi)源在理念上的確有相似之處，都是基于開(kāi)放、共享和協(xié)作的原則，鼓勵(lì)社區(qū)共同參與開(kāi)發(fā)和改進(jìn)，推動(dòng)技術(shù)進(jìn)步并提高透明性。

然而，在實(shí)現(xiàn)和需求上有顯著區(qū)別。

軟件開(kāi)源主要針對(duì)應(yīng)用程序和工具，開(kāi)源的資源需求較低，而大模型的開(kāi)源則涉及大量計(jì)算資源和高質(zhì)量的數(shù)據(jù)，并且可能有更多使用限制。因此，雖然兩者的開(kāi)源都旨在促進(jìn)創(chuàng)新和技術(shù)傳播，但大模型開(kāi)源面臨更多的復(fù)雜性，社區(qū)貢獻(xiàn)形式也有所不同。

國(guó)內(nèi)此前也曾爆發(fā)過(guò)大模型開(kāi)源與閉源的討論。百度創(chuàng)始人李彥宏多次強(qiáng)調(diào)了兩者的區(qū)別，大模型開(kāi)源不等于代碼開(kāi)源：“模型開(kāi)源只能拿到一堆參數(shù)，還要再做SFT（監(jiān)督微調(diào)）、安全對(duì)齊，即使是拿到對(duì)應(yīng)源代碼，也不知道是用了多少比例、什么比例的數(shù)據(jù)去訓(xùn)練這些參數(shù)，無(wú)法做到眾人拾柴火焰高，拿到這些東西，并不能讓你站在巨人的肩膀上迭代開(kāi)發(fā)?！?/p>

由此來(lái)看，目前對(duì)開(kāi)源大模型的改進(jìn)主要通過(guò)微調(diào)實(shí)現(xiàn)，但因微調(diào)主要針對(duì)模型輸出層調(diào)整不涉及核心構(gòu)架和參數(shù)，無(wú)法從根本上改變模型的能力和性能。

即便是“真開(kāi)源”，受技術(shù)特性與訓(xùn)練成本所限，開(kāi)放式協(xié)作對(duì)大模型性能提升效果也有限。大模型訓(xùn)練過(guò)程需要耗費(fèi)大量算力，算力成本居高不下，即便創(chuàng)作者開(kāi)源數(shù)據(jù)集和訓(xùn)練細(xì)節(jié)，普通開(kāi)發(fā)者也很難承擔(dān)復(fù)現(xiàn)訓(xùn)練過(guò)程的高昂訓(xùn)練成本，模型能力難以因開(kāi)放而得到實(shí)質(zhì)提升。

數(shù)據(jù)顯示，ChatGPT一次完整的模型訓(xùn)練成本超過(guò)8000萬(wàn)元。如果進(jìn)行10次完整的模型訓(xùn)練，成本便高達(dá)8億元。

站在企業(yè)角度，選擇一款大模型產(chǎn)品或應(yīng)用，需要根據(jù)組織的具體需求和戰(zhàn)略目標(biāo)來(lái)決定。

李彥宏認(rèn)為，評(píng)價(jià)一個(gè)模型，維度是多方面的，不僅是看到榜單上的多項(xiàng)能力，也要看效果看效率。當(dāng)大模型加速駛?cè)肷虡I(yè)應(yīng)用之后，在追求高效率和低成本的情況下，真正的衡量標(biāo)準(zhǔn)應(yīng)是模型在實(shí)際應(yīng)用中能否滿足用戶需求和產(chǎn)生價(jià)值。

大模型應(yīng)用是涵蓋“技術(shù)+服務(wù)”的一套完整解決方案，對(duì)單一方面的忽略或考慮不足都會(huì)影響到企業(yè)的“降本增效”效果，更有甚者會(huì)起到“增本降效”的負(fù)面效果，因此需要通過(guò)“算總賬”進(jìn)行綜合考量。

對(duì)于如何選擇大模型這件事，企業(yè)也無(wú)需過(guò)于糾結(jié)，應(yīng)該將關(guān)注點(diǎn)放在哪個(gè)大模型更好用、如何匹配自身的實(shí)際業(yè)務(wù)需要，從而選擇最適合企業(yè)自身業(yè)務(wù)場(chǎng)景的大模型平臺(tái)，然后專(zhuān)注于應(yīng)用開(kāi)發(fā)。那么企業(yè)如何選擇呢？

首先，要計(jì)算硬件資源成本。一些商業(yè)大模型會(huì)配套相應(yīng)的工具鏈，包括訓(xùn)練工具鏈、推理工具鏈，這些工具鏈能夠起到比較好的降本效果，對(duì)企業(yè)來(lái)說(shuō)，訓(xùn)練環(huán)節(jié)能大約省10~20%的硬件成本，推理環(huán)節(jié)則省得更多，業(yè)務(wù)規(guī)模越大，省得越多。

其次，要看模型帶來(lái)的業(yè)務(wù)收益。一些業(yè)務(wù)對(duì)于90%還是95%的準(zhǔn)確率敏感度沒(méi)那么高。但有一些業(yè)務(wù)，比如商業(yè)廣告類(lèi)，CPM、CTR差一個(gè)點(diǎn)，對(duì)廣告平臺(tái)來(lái)說(shuō)一天可能就有上千萬(wàn)的出入，這時(shí)候?qū)δＰ偷男Ч笤礁叩钠髽I(yè)，就更愿意去買(mǎi)一個(gè)效果更好的模型。

第三，要考慮機(jī)會(huì)成本和人力成本。在一些商業(yè)大模型中，廠商會(huì)根據(jù)企業(yè)業(yè)務(wù)需求把模型和硬件進(jìn)行適配，并調(diào)到最優(yōu)狀態(tài)，讓企業(yè)可以直接復(fù)制成熟經(jīng)驗(yàn)，這樣就大大降低了大模型在適配過(guò)程中的算力、人力等多項(xiàng)成本。

面對(duì)行業(yè)的大模型開(kāi)源閉源、真假開(kāi)源之爭(zhēng)，我們無(wú)需以道德綁架要求所有大模型都開(kāi)源，因?yàn)檫@涉及大量技術(shù)、資源和安全考量，需要平衡開(kāi)放與安全、創(chuàng)新與責(zé)任。正如科技領(lǐng)域的其他方面一樣，多元化的貢獻(xiàn)方式才能構(gòu)建一個(gè)更豐富的技術(shù)生態(tài)系統(tǒng)。

真正的大模型開(kāi)源時(shí)刻還遠(yuǎn)未到來(lái)，正如開(kāi)源和專(zhuān)有軟件共同塑造了今天的軟件生態(tài)，大模型的開(kāi)源與否以及開(kāi)源程度也并非完全對(duì)立，多種技術(shù)路線并存發(fā)展是推動(dòng)AI技術(shù)不斷進(jìn)步、滿足不同應(yīng)用場(chǎng)景需求的重要?jiǎng)恿?。最終，用戶和市場(chǎng)會(huì)作出適合自己的選擇。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

假開(kāi)源真噱頭？開(kāi)源大模型和你想的不一樣

下一篇

假開(kāi)源真噱頭？開(kāi)源大模型和你想的不一樣

下一篇

假開(kāi)源真噱頭？開(kāi)源大模型和你想的不一樣