123,123,123

OpenAI“復制粘貼”背后：剽竊者想要免費獲得一切

人閱讀

2024-01-30 12:00:32

來源：極客網(wǎng)
相關(guān)關(guān)鍵詞

極客網(wǎng)·人工智能1月30日 如今，人們發(fā)表的文章或作品被剽竊，而剽竊者免費使用或為此獲利的事例屢見不鮮。從互聯(lián)網(wǎng)到AI，莫不如此。

比如，如今火熱的OpenAI，其AI模型就很少為其使用的內(nèi)容付費，該公司在2023年創(chuàng)造了13億美元的收入。

OpenAI的狡辯

在《紐約時報》針對OpenAI進行的版權(quán)訴訟中，OpenAI為自己辯護稱，“我們使用互聯(lián)網(wǎng)公開的內(nèi)容訓練AI模型的行為是合理的?！?/p>

根據(jù)OpenAI的這一邏輯，任何人放到網(wǎng)上的作品都是在參與一種公平的游戲，都可以被利用并納入該公司的大型語言模型。

《紐約時報》聲稱，該報發(fā)表的數(shù)百萬篇文章現(xiàn)在被OpenAI用來訓練與其進行業(yè)務競爭的聊天機器人。他們從該報作者和編輯的工作成果中賺取了數(shù)十億美元，卻沒有支付稿費。

OpenAI還聲無賴地聲稱，《紐約時報》可以選擇不讓他們的報道被ChatGPT的LLM使用。但是，如果是這樣的話，那么，ChatGPT直接抄襲《紐約時報》獲得普利策獎的一篇調(diào)查報告該如何解釋呢？該報告是《紐約時報》的記者歷時18個月對紐約市出租車行業(yè)的掠奪性貸款行為進行調(diào)查而發(fā)表的一篇詳盡報道。

事實面前，OpenAI解釋，ChatGPT可能采用的是其所謂“記憶”的方法。該公司辯稱，“這是我們在不斷學習和進步過程中罕見的一次失敗，但當特定內(nèi)容在訓練數(shù)據(jù)中不止一次出現(xiàn)時，就像它的片段出現(xiàn)在許多不同的公共網(wǎng)站上一樣，這種情況更為常見?！?/p>

與此同時，OpenAI聲稱，“《紐約時報》的報道沒有對我們現(xiàn)有模型的訓練做出有意義的貢獻，也不會對未來的訓練產(chǎn)生足夠的影響?！盙PT-3中權(quán)重最高的數(shù)據(jù)集是Common Crawl，排名前三的數(shù)據(jù)來源是維基百科、美國專利數(shù)據(jù)庫和《紐約時報》。

剽竊者想要免費獲得一切

正如Futurism網(wǎng)站的特約撰稿人Victor Tangermann最近在發(fā)表的一篇文章所寫的那樣，“OpenAI的整個商業(yè)模式依賴于盡可能多地收集數(shù)據(jù)，通常包括受版權(quán)保護的材料?！?/p>

OpenAI在向英國議會提出的觀點也是這樣表達的。該公司表示：“因為當今的版權(quán)幾乎涵蓋了所有類型的人類表達，其中包括博客文章、照片、論壇帖子、軟件代碼片段和政府文件——如果不使用受版權(quán)保護的材料，那么就不可能訓練領(lǐng)先的AI模型?！?/p>

已故科幻作家Harlan Ellison在《付錢給作家》文章中曾說：“剽竊者想要免費獲得一切。他們付費給作家了嗎？沒有，他們總是想讓作家白干！”

OpenAI和其他生成式AI開發(fā)商就是如此。他們竊取出版公司、出版物、作家和編輯的工作成果，他們在沒有給任何人支付費用的情況下獲利。

歷史總是在重演

歷史總是在重演。報紙和雜志等出版物在20世紀90年代開始衰落，他們的內(nèi)容被發(fā)到互聯(lián)網(wǎng)，而出版商無法獲利潤。這就是谷歌能夠通過廣告將新聞媒體的內(nèi)容轉(zhuǎn)化為利潤的原因，而新聞出版物的收入則大量流失。

希望出版商不會再犯這樣的錯誤，他們應該獲得相應的報酬。當然，這種情況可能會重演。如果那真的發(fā)生，那么就能看到未來是什么樣子。博主兼科幻作家Cory Doctorow為這種情況創(chuàng)造了“Enshittification”這樣的詞語來描述，指的是網(wǎng)站內(nèi)容和信息質(zhì)量的下降。

最近的研究表明，谷歌的搜索結(jié)果正變得越來越無效，而且充斥著更多的垃圾網(wǎng)站。越來越多的內(nèi)容是基于搜索引擎優(yōu)化和AI生成的廢話。與此同時，內(nèi)容質(zhì)量相對于數(shù)量的下降，將導致出版商和作家收入減少。這反過來意味著，可供生成式工智能引擎訓練的具有價值的故事將會越來越少。

如果OpenAI和生成式AI開發(fā)商是明智的，他們需要與內(nèi)容創(chuàng)作者分享財富。從長遠來看，這確實是所有人前進的唯一道路——無論是科技億萬富翁還是自由撰稿人。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）