財聯(lián)社4月20日訊(編輯 史正丞)在過去半年不到的時間里,許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底,目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識,它們能夠模仿人類講話,主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。
互聯(lián)網(wǎng)上蘊含著大量有用、有益的經(jīng)驗和知識,但數(shù)字時代的網(wǎng)民們也不得不承認,在煙波浩渺的互聯(lián)網(wǎng)信息叢林中,也蘊含著大量偏見、歧視、有害,以及侵犯名譽和隱私的內(nèi)容。種種跡象顯示,這些“人類的禁忌知識”也被大模型照單全收了。
當?shù)貢r間周三,《華盛頓郵報》發(fā)表了與艾倫人工智能研究院合作進行的調(diào)查結(jié)果,他們拆解了谷歌的C4數(shù)據(jù)集,這也是許多知名英語AI大模型的訓練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關(guān)注的OpenAI并沒有公布訓練ChatGPT所用的數(shù)據(jù)集,所以這也是目前窺得AI數(shù)據(jù)黑箱的最便利解決方案。
AI數(shù)據(jù)集黑箱揭秘
值得一提的是,調(diào)查人員使用了SimilarWeb的網(wǎng)站分類數(shù)據(jù),由于C4數(shù)據(jù)集中有三分之一的網(wǎng)站已經(jīng)不存在這個世界上了,所以實際統(tǒng)計的數(shù)據(jù)大約為1000萬個網(wǎng)站。
根據(jù)研究,囊括全球?qū)@畔⒌墓雀鑼@W(wǎng)、維基百科和訂閱制數(shù)字圖書館scribd的資料權(quán)重位列整個數(shù)據(jù)集前三。但隨著列表往下翻,一系列意想不到的名字開始出現(xiàn)。
已經(jīng)被美國司法部查封的盜版電子書網(wǎng)站b-ok.org高居第190位,類似這樣因為侵犯版權(quán)被美國查封的網(wǎng)站還在數(shù)據(jù)集中出現(xiàn)至少27次。
(b-ok.org現(xiàn)在是這個樣子的,來源:網(wǎng)站)
此外,《魔獸世界》玩家論壇wowhead也高居第181位,《赫芬頓郵報》創(chuàng)始人阿里安娜·赫芬頓辦的行為轉(zhuǎn)變課程網(wǎng)站thriveglobal也位居175位。令人意外的是,有兩個美國投票人數(shù)據(jù)庫網(wǎng)站也位列前100位。雖然投票人的數(shù)據(jù)本身是公開的,但大模型可能會把這些個人數(shù)據(jù)用在哪里,又有誰能說清楚呢?
接下來的數(shù)據(jù)則顯示,AI大模型潛在的侵權(quán)問題,可能要比想象中更加嚴重。商業(yè)和行業(yè)網(wǎng)站是數(shù)據(jù)集中比重最大的分類,創(chuàng)意產(chǎn)品眾籌網(wǎng)站kickstarter(25位)也出現(xiàn)在榜單里非常高的位置。這里就引出了一個新的問題,AI向用戶提供的許多創(chuàng)意和市場營銷答案,很有可能本身就是現(xiàn)成的作品。
研究人員也發(fā)現(xiàn),超過50萬的個人博客被收錄進C4訓練集中,這些作者顯然沒有因此得到過任何報酬。
作為AI訓練的“富礦”,每天都大量生產(chǎn)經(jīng)過審校內(nèi)容的媒體也是訓練集的最愛,紐約時報、洛杉磯時報、衛(wèi)報、福布斯和赫芬頓郵報均擠進數(shù)據(jù)庫比重前十。與許多藝術(shù)家一樣,不少媒體目前也在向AI產(chǎn)業(yè)聲索維權(quán)。由于美國媒體行業(yè)的復雜性,所以訓練集中也能找到以極右翼、白人至上主義內(nèi)容為主基調(diào)的網(wǎng)站。
事實上,谷歌在構(gòu)建數(shù)據(jù)庫的時候,已經(jīng)意識到網(wǎng)絡信息污染的問題,所以除了刪除毫無意義和重復的語句外,特意用開源的“臟話過濾器”篩過一遍,但似乎有數(shù)量非常龐大的漏網(wǎng)之魚鉆了過去。研究人員就在訓練集中找到至少7.2萬個德國納粹的標志性符號。
更令人擔憂的是,訓練集中也能找到宣揚種族主義、極右翼陰謀論(QAnon)的網(wǎng)頁,而以組織網(wǎng)絡暴力聞名的4Chan匿名聊天網(wǎng)站也出現(xiàn)在訓練集中。
比起數(shù)據(jù)臟 處理數(shù)據(jù)的態(tài)度更迷離
雖然C4訓練集的數(shù)據(jù)已經(jīng)非常龐大,但用于訓練OpenAI GPT-3的網(wǎng)絡爬蟲數(shù)據(jù)集,從一開始就要比C4大40倍,背后的問題自然也會被同步放大。
但在GPT-3的論文中,OpenAI也公開討論了一個細節(jié):在防止測試數(shù)據(jù)被放進訓練數(shù)據(jù)導致污染的過程中發(fā)現(xiàn)了一個BUG,但由于重新訓練模型太貴、公司又沒錢,所這個問題就放著不去管它了。
一些業(yè)內(nèi)人士也透露,許多科技公司在內(nèi)部都不會記錄訓練數(shù)據(jù)的來源,因為擔心會發(fā)現(xiàn)個人信息數(shù)據(jù),以及未經(jīng)授權(quán)的材料或其他數(shù)據(jù)。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )