近日,麻省理工學(xué)院(MIT)發(fā)布新論文,發(fā)現(xiàn)在AI基準數(shù)據(jù)集中存在“系統(tǒng)性” 標簽錯誤,平均誤差3.4%。螃蟹變“龍蝦”、青蛙成“貓”、手寫數(shù)字3變“5”……大量圖文音視頻等內(nèi)容的標記錯誤,或會影響AI預(yù)判及科學(xué)家實驗結(jié)論。
MIT研究人員通過模型訓(xùn)練,發(fā)現(xiàn)AI可對標簽錯誤自行“修正”,且低容量、簡單模型在訓(xùn)練AI修正數(shù)據(jù)集精確度時效果最佳。
該研究論文題目為《ML數(shù)據(jù)集中普遍存在的標簽錯誤會破壞基準測試的穩(wěn)定性(Pervasive Label Errors in ML Datasets Destabilize Benchmarks)》。
論文鏈接:https://labelerrors.com/paper.pdf
一、系統(tǒng)性標簽錯誤:影響AI及科學(xué)家預(yù)判,平均誤差3.4%
人工智能和機器學(xué)習(xí)領(lǐng)域可以說是建立在幾百篇論文的肩膀上的,其中很多論文都是利用公共數(shù)據(jù)集的子集得出結(jié)論。從圖像分類到音頻分類,大量的標注語料對人工智能的成功至關(guān)重要。這是因為它們的注釋將可理解的模式暴露給機器學(xué)習(xí)算法,實際上是告訴機器在未來的數(shù)據(jù)集中尋找什么,這樣它們就能夠做出預(yù)測。
但是,盡管標記數(shù)據(jù)通常等同于基本事實,但數(shù)據(jù)集也確實會出錯。
構(gòu)建語料庫的過程中,通常涉及某種程度的自動注釋或眾包技術(shù),這些技術(shù)本身就容易出錯。當這些錯誤到達測試集(研究人員用來比較進展和驗證他們的發(fā)現(xiàn)的數(shù)據(jù)集子集)時,就存在很大問題。這可能會導(dǎo)致科學(xué)家判斷模型的實際表現(xiàn)時得出錯誤結(jié)論,可能會破壞社區(qū)對機器學(xué)習(xí)系統(tǒng)進行基準測試的框架。
論文共同作者在對包括ImageNet在內(nèi)的10個數(shù)據(jù)集的測試集分析中發(fā)現(xiàn),從ImageNet驗證集中的2900多個錯誤,到QuickDraw中的500多萬個錯誤不等,所有數(shù)據(jù)集平均有3.4%的錯誤。
研究人員說,錯誤的標簽使測試集的基準測試結(jié)果不穩(wěn)定。例如,當ImageNet和另一個圖像數(shù)據(jù)集CIFAR-10因標記錯誤而被糾正時,較大的模型的性能比容量較低的模型差。這是因為高容量模型比小容量模型在更大程度上反映了標記錯誤在預(yù)測中的分布,這種影響隨著錯誤標記測試數(shù)據(jù)的流轉(zhuǎn)而增加。
▲顯示了在流行的人工智能基準數(shù)據(jù)集中標注錯誤的百分比
在選擇要審計的數(shù)據(jù)集時,研究人員選取計算機視覺、自然語言處理、情感分析和音頻多領(lǐng)域模式,查看了過去20年中創(chuàng)建的最常用的開放源代碼數(shù)據(jù)集。他們評估了六個圖像數(shù)據(jù)集(MNIST,CIFAR-10,CIFAR-100,Caltech-256,Image Net),三個文本數(shù)據(jù)集(20news、IMDB和Amazon評論)和一個音頻數(shù)據(jù)集(AudioSet)。
據(jù)研究人員評估,QuickDraw在其測試集中的錯誤百分比最高,占總標簽的10.12%。CIFAR排名第二,錯誤標簽率約為5.85%,ImageNet緊隨其后,為5.83%。39萬個標簽錯誤約占亞馬遜評論數(shù)據(jù)集的4%。
其中,有圖像、文字情緒及音頻等標記錯誤。例如,一個品種狗被混淆為另一品種,或被認成嬰兒奶嘴;亞馬遜產(chǎn)品的積極評論被標記為負面;愛莉安娜·格蘭德(Ariana Grande)的在YouTube上的高音視頻被歸類為哨音。
▲一只吉娃娃在ImageNet中被誤標為羽毛蟒蛇
二、AI模型能自動修正誤標,簡單模型做的更好
此前MIT的一項研究發(fā)現(xiàn),ImageNet存在“系統(tǒng)性”標記錯誤,當用作基準數(shù)據(jù)集時,與基本事實或直接觀測數(shù)據(jù)不一致。這項研究的合著者得出的結(jié)論是:大約20%的ImageNet照片包含多個對象,導(dǎo)致在數(shù)據(jù)集上訓(xùn)練的模型精確度下降高達10%。
在后續(xù)的一項實驗中,研究人員過濾掉了ImageNet中的錯誤標簽,以此對一些模型進行基準測試,結(jié)果基本上沒有變化。但是,當模型只在錯誤的數(shù)據(jù)上進行評估時,那些在原數(shù)據(jù)集、校正后數(shù)據(jù)集上同時表現(xiàn)最好的模型,被發(fā)現(xiàn)表現(xiàn)最差。
這意味著,AI模型學(xué)會了捕捉標記錯誤的系統(tǒng)模式,以提高其原始測試精度。
在本次實驗中,合著者創(chuàng)建了一個無錯誤的CIFAR-10測試集來測量人工智能模型的“修正”精確度。結(jié)果表明,強大的模型并不能很好地表現(xiàn)出比簡單模型更好的性能,因為性能與標記錯誤的相關(guān)。這項研究的合著者說,面對有常見錯誤的數(shù)據(jù)集,數(shù)據(jù)科學(xué)家可能會被誤導(dǎo),選擇一個在校正精度方面不是最佳的模型。
研究人員寫道:“以往,機器學(xué)習(xí)實踐者會根據(jù)測試的準確性來選擇部署哪種模型。但根據(jù)我們的研究結(jié)果提醒大家注意,在面對噪聲的實際數(shù)據(jù)集時,在正確標記測試集上的判斷模型可能更有用?!薄氨仨氄J識到校正和原始測試準確度之間的區(qū)別,并遵循數(shù)據(jù)集管理實踐,最大限度地提高測試標簽的質(zhì)量?!?/p>
為了促進更精確的基準測試,研究人員發(fā)布了每個測試集的干凈版本,其中大部分的標簽錯誤都得到了糾正。該團隊建議數(shù)據(jù)科學(xué)家測量他們在實踐中關(guān)心的真實世界的準確性,并考慮對帶有易出錯標簽的數(shù)據(jù)集使用更簡單的模型,特別是對有噪聲標簽數(shù)據(jù)使用訓(xùn)練或評估的算法。
三、AI數(shù)據(jù)集現(xiàn)狀:存種族與性別偏見,人物誤標率高達96%
以保護隱私、合乎道德的方式創(chuàng)建數(shù)據(jù)集仍然是AI社區(qū)研究人員的主要障礙,尤其是那些專門從事計算機視覺的研究人員。
2019年1月,IBM發(fā)布了一個語料庫,旨在緩解人臉識別算法中的偏見,其中包含了近百萬張Flickr用戶的照片。但IBM沒有通知攝影師或照片的拍攝對象,他們的作品將被仔細審查。另外,一個早期版本的ImageNet被發(fā)現(xiàn)有大量裸體兒童、色情女演員、大學(xué)聚會等不雅照片,這些照片都是在未經(jīng)個人同意下從網(wǎng)絡(luò)抓取的。
在2020年7月,麻省理工學(xué)院和紐約大學(xué)的8000萬張微小圖像數(shù)據(jù)集的創(chuàng)造者們將該數(shù)據(jù)集下線并道歉,并要求其他研究人員不要使用該數(shù)據(jù)集,刪除任何現(xiàn)有副本。自2006年推出以來,該數(shù)據(jù)集被發(fā)現(xiàn)一系列帶有種族主義、性別歧視和其他攻擊性的標注,其中包括近2000張標有N字的圖片,以及“強奸嫌疑犯”和“猥褻兒童者”等標簽。該數(shù)據(jù)集還包含色情內(nèi)容,如未經(jīng)對方同意拍攝女性裙子的照片。
這些數(shù)據(jù)集中的偏見在經(jīng)過訓(xùn)練的商業(yè)人工智能系統(tǒng)中并不少見。早在2015年,一位軟件工程師就指出,谷歌照片中的圖像識別算法將他的黑人朋友標記為“大猩猩”。非營利組織AlgorithmWatch顯示,云視覺API自動將深色皮膚人持有的溫度計標記為“槍”,同時將淺色皮膚人持有的溫度計標記為“電子設(shè)備”。
性別陰影項目(Gender Shades project)和美國國家標準與技術(shù)研究所(NIST)對主要供應(yīng)商系統(tǒng)的基準測試表明,人臉識別技術(shù)表現(xiàn)出種族和性別偏見,對人的錯誤標記率高達96%以上。
人工智能社區(qū)中的一些人正在采取措施建立問題較少的語料庫。ImageNet的創(chuàng)建者表示,他們計劃刪除數(shù)據(jù)集“人”子樹中幾乎所有的2800個類別,這些類別中存在缺陷,很難代表全球。本周,該組織發(fā)布了一個模糊人臉的數(shù)據(jù)集版本,以支持隱私實驗。
結(jié)語:AI基準數(shù)據(jù)庫需更精準客觀
人工智能基準數(shù)據(jù)集無疑是如今互聯(lián)網(wǎng)的發(fā)展基石,面對海量龐大的數(shù)據(jù)庫,機器學(xué)習(xí)能夠“自主”修正,是整個AI產(chǎn)業(yè)發(fā)展中振奮人心的好消息。
同時,當人工智能浪潮不斷顛覆各行各業(yè)時,數(shù)據(jù)集中的誤標與偏見也會更深入地融入我們的生活。因此,技術(shù)發(fā)展或需遵從道德底線與隱私界限,萬物互聯(lián)時代的愿景才會向善向好。
來源:VentureBeat
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )