日本免费一区不卡,诱人的女老板中文字幕,亚洲av永久无码精品九九

美國媒體揭開大模型陰暗面：訓練用的數(shù)據(jù)可能有點臟

人閱讀

2023-04-20 09:32:20

來源：財聯(lián)社
作者：史正丞
相關(guān)關(guān)鍵詞

財聯(lián)社4月20日訊（編輯史正丞）在過去半年不到的時間里，許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底，目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識，它們能夠模仿人類講話，主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。

互聯(lián)網(wǎng)上蘊含著大量有用、有益的經(jīng)驗和知識，但數(shù)字時代的網(wǎng)民們也不得不承認，在煙波浩渺的互聯(lián)網(wǎng)信息叢林中，也蘊含著大量偏見、歧視、有害，以及侵犯名譽和隱私的內(nèi)容。種種跡象顯示，這些“人類的禁忌知識”也被大模型照單全收了。

當?shù)貢r間周三，《華盛頓郵報》發(fā)表了與艾倫人工智能研究院合作進行的調(diào)查結(jié)果，他們拆解了谷歌的C4數(shù)據(jù)集，這也是許多知名英語AI大模型的訓練材料，例如谷歌的T5和Facebook的LLaMA。中國投資者更關(guān)注的OpenAI并沒有公布訓練ChatGPT所用的數(shù)據(jù)集，所以這也是目前窺得AI數(shù)據(jù)黑箱的最便利解決方案。

AI數(shù)據(jù)集黑箱揭秘

值得一提的是，調(diào)查人員使用了SimilarWeb的網(wǎng)站分類數(shù)據(jù)，由于C4數(shù)據(jù)集中有三分之一的網(wǎng)站已經(jīng)不存在這個世界上了，所以實際統(tǒng)計的數(shù)據(jù)大約為1000萬個網(wǎng)站。

根據(jù)研究，囊括全球?qū)＠畔⒌墓雀鑼＠W(wǎng)、維基百科和訂閱制數(shù)字圖書館scribd的資料權(quán)重位列整個數(shù)據(jù)集前三。但隨著列表往下翻，一系列意想不到的名字開始出現(xiàn)。

已經(jīng)被美國司法部查封的盜版電子書網(wǎng)站b-ok.org高居第190位，類似這樣因為侵犯版權(quán)被美國查封的網(wǎng)站還在數(shù)據(jù)集中出現(xiàn)至少27次。

（b-ok.org現(xiàn)在是這個樣子的，來源：網(wǎng)站）

此外，《魔獸世界》玩家論壇wowhead也高居第181位，《赫芬頓郵報》創(chuàng)始人阿里安娜·赫芬頓辦的行為轉(zhuǎn)變課程網(wǎng)站thriveglobal也位居175位。令人意外的是，有兩個美國投票人數(shù)據(jù)庫網(wǎng)站也位列前100位。雖然投票人的數(shù)據(jù)本身是公開的，但大模型可能會把這些個人數(shù)據(jù)用在哪里，又有誰能說清楚呢？

接下來的數(shù)據(jù)則顯示，AI大模型潛在的侵權(quán)問題，可能要比想象中更加嚴重。商業(yè)和行業(yè)網(wǎng)站是數(shù)據(jù)集中比重最大的分類，創(chuàng)意產(chǎn)品眾籌網(wǎng)站kickstarter（25位）也出現(xiàn)在榜單里非常高的位置。這里就引出了一個新的問題，AI向用戶提供的許多創(chuàng)意和市場營銷答案，很有可能本身就是現(xiàn)成的作品。

研究人員也發(fā)現(xiàn)，超過50萬的個人博客被收錄進C4訓練集中，這些作者顯然沒有因此得到過任何報酬。

作為AI訓練的“富礦”，每天都大量生產(chǎn)經(jīng)過審校內(nèi)容的媒體也是訓練集的最愛，紐約時報、洛杉磯時報、衛(wèi)報、福布斯和赫芬頓郵報均擠進數(shù)據(jù)庫比重前十。與許多藝術(shù)家一樣，不少媒體目前也在向AI產(chǎn)業(yè)聲索維權(quán)。由于美國媒體行業(yè)的復雜性，所以訓練集中也能找到以極右翼、白人至上主義內(nèi)容為主基調(diào)的網(wǎng)站。

事實上，谷歌在構(gòu)建數(shù)據(jù)庫的時候，已經(jīng)意識到網(wǎng)絡信息污染的問題，所以除了刪除毫無意義和重復的語句外，特意用開源的“臟話過濾器”篩過一遍，但似乎有數(shù)量非常龐大的漏網(wǎng)之魚鉆了過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標志性符號。

更令人擔憂的是，訓練集中也能找到宣揚種族主義、極右翼陰謀論（QAnon）的網(wǎng)頁，而以組織網(wǎng)絡暴力聞名的4Chan匿名聊天網(wǎng)站也出現(xiàn)在訓練集中。

比起數(shù)據(jù)臟處理數(shù)據(jù)的態(tài)度更迷離

雖然C4訓練集的數(shù)據(jù)已經(jīng)非常龐大，但用于訓練OpenAI GPT-3的網(wǎng)絡爬蟲數(shù)據(jù)集，從一開始就要比C4大40倍，背后的問題自然也會被同步放大。

但在GPT-3的論文中，OpenAI也公開討論了一個細節(jié)：在防止測試數(shù)據(jù)被放進訓練數(shù)據(jù)導致污染的過程中發(fā)現(xiàn)了一個BUG，但由于重新訓練模型太貴、公司又沒錢，所這個問題就放著不去管它了。

一些業(yè)內(nèi)人士也透露，許多科技公司在內(nèi)部都不會記錄訓練數(shù)據(jù)的來源，因為擔心會發(fā)現(xiàn)個人信息數(shù)據(jù)，以及未經(jīng)授權(quán)的材料或其他數(shù)據(jù)。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）