開(kāi)源AI到底是什么?業(yè)界:超出開(kāi)源軟件范疇,需要重新界定

極客網(wǎng)·極客觀察3月28日 最近AI圈突然流行起開(kāi)源概念。Meta承諾將會(huì)打造開(kāi)源AI,馬斯克起訴OpenAI,說(shuō)它缺少開(kāi)源模型。與此同時(shí),一批科技領(lǐng)袖和科技企業(yè)紛紛為開(kāi)源概念吶喊。不過(guò)科技界碰到一個(gè)難以解決的根本問(wèn)題:它們對(duì)“開(kāi)源AI”的概念無(wú)法達(dá)成共識(shí)。 

照字面意思,開(kāi)源AI意味著未來(lái)任何人都可以參與科技開(kāi)發(fā),它能加速創(chuàng)新、增強(qiáng)透明度,讓用戶對(duì)系統(tǒng)擁有更多控制權(quán)。但到目前為止沒(méi)有人給“開(kāi)源AI”進(jìn)行明確界定,科技巨頭完全可以根據(jù)自己的需要扭曲概念,甚至有可能利用開(kāi)源AI穩(wěn)固自身地位。

在這里我們不得不提到Open Source Initiative (OSI),它是一個(gè)非盈利組織,成立于1998年,正是它推動(dòng)了開(kāi)源軟件的發(fā)展。OSI已經(jīng)招集研發(fā)人員、律師、議員、大科技公司代表,總計(jì)約70人,試圖明確界定“開(kāi)源AI”概念。

OSI高管Stefano Maffulli說(shuō),他們對(duì)開(kāi)源AI原則已經(jīng)達(dá)成廣泛共識(shí),但細(xì)節(jié)方面分歧很多。要考慮復(fù)雜的競(jìng)爭(zhēng)利益,要找到一套方案讓所有人滿意,要讓大企業(yè)積極參與,真的不容易。

大廠的態(tài)度

去年7月,Meta開(kāi)源Llama 2模型。Meta AI與開(kāi)源事務(wù)法律副總顧問(wèn)Jonathan Torres說(shuō):“我們支持OSI明確定義開(kāi)源AI,為了全球開(kāi)源社區(qū)的利益,我們會(huì)積極參與定義工作?!?/p>

相比Meta,OpenAI顯得沒(méi)有那么積極。在過(guò)去幾年前,OpenAI很少談及自己的研發(fā)進(jìn)度,理由是安全無(wú)法保證。OpenAI新聞發(fā)言人稱:“只有當(dāng)我們謹(jǐn)慎評(píng)估好利益與風(fēng)險(xiǎn),包括誤用、加速等問(wèn)題,才會(huì)考慮將強(qiáng)大的AI模型開(kāi)放?!?/p>

Stability AI和Aleph Alpha已經(jīng)提供一些開(kāi)源模型,Hugging Face托管了一批免費(fèi)使用AI模型。

谷歌Gemini和PaLM 2模型也沒(méi)有開(kāi)源,但Gemma模型已經(jīng)可以免費(fèi)使用,它的對(duì)手是Meta Llama 2,但谷歌所說(shuō)的不是“開(kāi)源”,而是“開(kāi)放”。

到底上述模型能不能稱為“開(kāi)源”,大家意見(jiàn)并不統(tǒng)一。不管是Llama 2還是Gemma都需要獲得授權(quán),使用時(shí)會(huì)受到限制,苛刻的要求無(wú)疑是與開(kāi)源相違背的。既然開(kāi)源就不能施加任何限制,科技企業(yè)顯然沒(méi)有做到。

OSI高管Stefano Maffulli稱,開(kāi)源的目的本來(lái)是要確保開(kāi)發(fā)者可以隨意使用、研究、修改、分享軟件,不施加任何限制,但AI的運(yùn)行方式有些不同,所以原本適用于軟件的開(kāi)源理念無(wú)法流暢轉(zhuǎn)移到AI領(lǐng)域。

Stefano Maffulli解釋稱,AI模型涉及的組件太多了,如果是軟件,只需要修改底層代碼就行了,AI更復(fù)雜,根據(jù)目的的不同,修改AI模型會(huì)牽涉到訓(xùn)練模型、訓(xùn)練數(shù)據(jù)、處理數(shù)據(jù)的代碼、管理訓(xùn)練流程的代碼,還有模型的底層架構(gòu)等。

基本自由是什么?基本權(quán)利是什么?我們都需要明確界定。為了執(zhí)行基本權(quán)利如何操作也不夠明晰。只有定義明確,定義被大家尊重、接受才能降低合規(guī)成本,減少摩擦,分享知識(shí)。

當(dāng)前的癥結(jié)在于數(shù)據(jù)。所有大型科技企業(yè)只是簡(jiǎn)單發(fā)布了預(yù)訓(xùn)練模型,沒(méi)有提供訓(xùn)練數(shù)據(jù)。如果想給開(kāi)源AI下一個(gè)更明確的定義,沒(méi)有數(shù)據(jù)就很難修改、研究模型,所以它們并不是開(kāi)源模型。

有些人持不同意見(jiàn),他們認(rèn)為只要簡(jiǎn)單描述數(shù)據(jù),研究人員就能深入調(diào)查模型,沒(méi)有必要通過(guò)重新訓(xùn)練來(lái)修改模型。預(yù)訓(xùn)練模型可以通過(guò)所謂的微調(diào)進(jìn)行調(diào)整,也就是用一批規(guī)模較小的特殊數(shù)據(jù)集來(lái)重新訓(xùn)練。

比如Meta提供的Llama 2,Meta雖然給出的是預(yù)訓(xùn)練模型,但已經(jīng)有一批開(kāi)發(fā)者下載、修改它,然后分享自己的修改結(jié)果。開(kāi)發(fā)者會(huì)用它完成各種項(xiàng)目,它已經(jīng)擁有一整套生態(tài)系統(tǒng),我們能不能叫它半開(kāi)放?或者叫半開(kāi)源?

非盈利組織Open Future的研發(fā)人員Zuzanna Warso認(rèn)為,從技術(shù)角度看,如果沒(méi)有原始訓(xùn)練數(shù)據(jù),研發(fā)人員無(wú)法修改模型,但沒(méi)有訓(xùn)練數(shù)據(jù)就真的無(wú)法自由研究模型嗎?這個(gè)爭(zhēng)論點(diǎn)也值得商榷。

Zuzanna Warso稱:“在整個(gè)流程中,訓(xùn)練數(shù)據(jù)是關(guān)鍵組成部分。如果我們真的關(guān)心開(kāi)放,也應(yīng)該關(guān)心數(shù)據(jù)的開(kāi)放度。”

開(kāi)源的意義

AI Now Institute聯(lián)合執(zhí)行董事Sarah Myers West去年曾發(fā)表一篇論文,她在論文中指出,許多開(kāi)源AI項(xiàng)目缺少開(kāi)放性,但她同時(shí)也指出,訓(xùn)練尖端AI需要大量數(shù)據(jù)和計(jì)算力,苛刻的要求限制了小玩家的參與,不管模型的開(kāi)源程度如何都受到限制。

通過(guò)開(kāi)源,人們希望達(dá)成怎樣的目標(biāo)?對(duì)于這個(gè)問(wèn)題大家也莫衷一是。Sarah Myers West稱:“是為了安全?為了學(xué)術(shù)研究?還是為了增強(qiáng)競(jìng)爭(zhēng)?我們必須對(duì)目標(biāo)有更清晰的認(rèn)識(shí),系統(tǒng)開(kāi)放到什么程度會(huì)對(duì)目標(biāo)追求產(chǎn)生怎樣的影響,這點(diǎn)也需要考慮?!?/p>

OSI在定義草案中認(rèn)為,開(kāi)源能帶來(lái)好處,其中自主、透明就是關(guān)鍵收益,但文件中也提到了“超出范圍的問(wèn)題”,比如倫理、信任、責(zé)任。

Maffulli解釋稱,從歷史上看開(kāi)源社區(qū)的關(guān)注重點(diǎn)是如何減少軟件分享摩擦,不能陷入無(wú)限爭(zhēng)論,比如應(yīng)該如何使用軟件。

有人不認(rèn)同Maffulli的說(shuō)法,技術(shù)是中性的,倫理問(wèn)題不可控,這些有爭(zhēng)議的問(wèn)題本來(lái)就很重要,之所以拒絕討論是避免松散的開(kāi)源社區(qū)分崩離析。

除了OSI,還有一些組織也想為開(kāi)源AI指明方向,比如2022年成立的 Responsible AI Licenses(RAIL),它想通過(guò)開(kāi)源授權(quán)的方式限制模型特殊使用方式。拿到授權(quán)后,開(kāi)發(fā)者不能以不合適、不道德的方式使用AI模型。在Hugging Face的托管平臺(tái)上,已經(jīng)有28%的模型使用了RAIL授權(quán)。

谷歌Gemma的授權(quán)也遵循相似的原則,拿到授權(quán)的開(kāi)發(fā)者不能將模型應(yīng)用于有害場(chǎng)景。艾倫人工智能研究所也制定了自己的授權(quán)規(guī)則。

開(kāi)源軟件管理公司Tidelift的聯(lián)合創(chuàng)始人Luis Villa認(rèn)為,考慮到AI與常規(guī)軟件有所不同,探索不同程度的開(kāi)放是難以避免的,這樣做對(duì)整個(gè)行業(yè)也可能是有益的。但是各種開(kāi)放授權(quán)互不兼容可能會(huì)影響協(xié)作,只有協(xié)作能讓開(kāi)源走向成功,除此還有其它一些負(fù)作用,比如AI創(chuàng)新會(huì)受影響,透明度會(huì)降低,小玩家參與難度提升。

社區(qū)應(yīng)該圍繞單一標(biāo)準(zhǔn)進(jìn)行授權(quán)合并,否則就會(huì)各行其是。對(duì)于OSI的方針政策,Luis Villa也不是很認(rèn)可。當(dāng)初OSI提出開(kāi)源軟件定義時(shí)時(shí)間充裕,外部審查也很少,如今的AI環(huán)境大不相同,有大企業(yè)和監(jiān)管者干涉。

如果開(kāi)源社區(qū)無(wú)法給出明確的定義,其它人就會(huì)根據(jù)自己的需求各提出一套定義。Luis Villa稱:“它們會(huì)填補(bǔ)真空,扎克伯格可能會(huì)告訴我們所謂的開(kāi)源AI是什么,他講的話影響肯定很大。”(小刀)

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-03-28
開(kāi)源AI到底是什么?業(yè)界:超出開(kāi)源軟件范疇,需要重新界定
最近AI圈突然流行起開(kāi)源概念。Meta承諾將會(huì)打造開(kāi)源AI,馬斯克起訴OpenAI,說(shuō)它缺少開(kāi)源模型。與此同時(shí),一批科技領(lǐng)袖和科技企業(yè)紛紛為開(kāi)源概念吶喊。

長(zhǎng)按掃碼 閱讀全文