合成數(shù)據(jù)生成器可以解決人工智能的偏見問題

合成數(shù)據(jù)生成器可以解決人工智能的偏見問題

人工智能偏見是一個嚴(yán)重的問題,可能對個人產(chǎn)生各種后果。

隨著人工智能的發(fā)展,圍繞數(shù)據(jù)科學(xué)解決方案的問題和道德困境開始浮出水面。因為人類已經(jīng)將自己排除在決策過程之外,他們希望確保這些算法做出的判斷既不帶有偏見,也不帶有歧視性。人工智能必須在任何時候都受到監(jiān)督。我們不能說這種可能的偏見是由人工智能引起的,因為其是一個基于預(yù)測分析的數(shù)字系統(tǒng),可以處理大量數(shù)據(jù)。這個問題在更早的時候就開始了,即“輸入”到系統(tǒng)中的無監(jiān)督數(shù)據(jù)。

縱觀歷史,人類一直存有偏見和歧視。我們的行動似乎不會很快改變。在系統(tǒng)和算法中發(fā)現(xiàn)了偏見,與人類不同,這些系統(tǒng)和算法似乎對這個問題免疫。什么是人工智能偏見?當(dāng)獲取數(shù)據(jù)的方式導(dǎo)致樣本不能正確代表利益群體時,AI偏差就會在數(shù)據(jù)相關(guān)領(lǐng)域發(fā)生。這表明來自特定種族、信仰、膚色和性別的人,在數(shù)據(jù)樣本中沒有得到充分代表。這可能會導(dǎo)致系統(tǒng)做出鑒別性的結(jié)論。還引發(fā)了關(guān)于什么是數(shù)據(jù)科學(xué)咨詢以及其的重要性的問題。AI中的偏見并不意味著創(chuàng)建的AI系統(tǒng)會故意偏向于特定的人群。人工智能的目標(biāo)是使個人能夠通過示例而不是指令來表達(dá)他們的愿望。所以,如果AI有偏差,那只能是因為數(shù)據(jù)有偏差!人工智能決策是一個在現(xiàn)實世界中運行的理想化過程,其無法掩蓋人類的缺陷。結(jié)合引導(dǎo)學(xué)習(xí)也是有利的。為什么會發(fā)生?人工智能偏見問題的出現(xiàn)是由于數(shù)據(jù)可能包含基于先入為主的人類選擇,這有利于得出良好的算法結(jié)論。在現(xiàn)實生活中,有幾個關(guān)于人工智能偏見的例子。種族人士和著名的變裝皇后被谷歌的仇恨言論檢測系統(tǒng)歧視。10年來,亞馬遜的人力資源算法主要是提供男性員工數(shù)據(jù),這導(dǎo)致女性候選人更有可能被評為符合亞馬遜的工作資格。麻省理工學(xué)院(MIT)的數(shù)據(jù)科學(xué)家表示,人臉識別算法在分析少數(shù)族裔(尤其是少數(shù)族裔女性)的面孔時,出錯率更高。這可能是因為該算法在訓(xùn)練過程中主要提供了白人男性的面孔。由于亞馬遜的算法是根據(jù)其在美國的1.12億Prime用戶,以及數(shù)千萬經(jīng)常光顧該網(wǎng)站,并經(jīng)常使用其其他商品的額外個人的數(shù)據(jù)進(jìn)行訓(xùn)練的,因此該公司可以預(yù)測消費者的購買行為。谷歌的廣告業(yè)務(wù)是基于預(yù)測算法的,該算法由其每天進(jìn)行的數(shù)十億次互聯(lián)網(wǎng)搜索以及市場上25億部Android智能手機的數(shù)據(jù)提供。這些互聯(lián)網(wǎng)巨頭建立了龐大的數(shù)據(jù)壟斷企業(yè),在人工智能領(lǐng)域擁有近乎不可逾越的優(yōu)勢。合成數(shù)據(jù)如何幫助解決人工智能偏見?在一個理想的社會中,沒有人會受到偏見,每個人都將擁有平等的機會,無論膚色、性別、宗教或性取向。然而,其存在于現(xiàn)實世界中,那些在某些地區(qū)與大多數(shù)人不同的人更難找到工作和獲得教育,這使他們在許多統(tǒng)計數(shù)據(jù)中被低估。根據(jù)人工智能系統(tǒng)的目標(biāo),這可能會導(dǎo)致錯誤的推斷,即這類人技能較低,不太容易被納入這些數(shù)據(jù)集,以及不太適合獲得良好的分?jǐn)?shù)。另一方面,人工智能數(shù)據(jù)可能是朝著公正的人工智能方向邁出的一大步。以下是一些需要考慮的概念:查看現(xiàn)實世界的數(shù)據(jù),看看偏差在哪里。然后,利用真實世界的數(shù)據(jù)和可觀察到的偏差,合成數(shù)據(jù)。如果想要創(chuàng)建理想的虛擬數(shù)據(jù)生成器,需要包含一個公平定義,其可試圖將有偏差的數(shù)據(jù)轉(zhuǎn)換為可能被認(rèn)為是公平的數(shù)據(jù)。人工智能生成的數(shù)據(jù)可能會填補數(shù)據(jù)集中變化不大或不夠大的空白,從而形成一個公正的數(shù)據(jù)集。即使樣本量很大,也有可能有些人被排除在外,或者與其他人相比,代表性不足。這個問題必須使用合成數(shù)據(jù)來解決。數(shù)據(jù)挖掘可能比生成公正的數(shù)據(jù)更昂貴。實際的數(shù)據(jù)收集需要測量、采訪、大量的樣本,并且無論如何都需要付出很多努力。人工智能生成的數(shù)據(jù)價格低廉,而且只需要使用數(shù)據(jù)科學(xué)和機器學(xué)習(xí)算法即可。

過去幾年,許多盈利性合成數(shù)據(jù)公司以及Synthea的創(chuàng)始人MitreCorp.的高管都注意到,人們對他們的服務(wù)的興趣激增。然而,隨著算法被更廣泛地用于做出改變生活的決定,人們發(fā)現(xiàn)它們會加劇種族主義、性別歧視和其他高影響領(lǐng)域的有害偏見,包括面部識別、犯罪預(yù)測和醫(yī)療保健決策。研究人員表示,使用算法生成的數(shù)據(jù)訓(xùn)練算法,會增加人工智能系統(tǒng)在許多情況下延續(xù)有害偏見的可能性。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-06-20
合成數(shù)據(jù)生成器可以解決人工智能的偏見問題
人工智能偏見是一個嚴(yán)重的問題,可能對個人產(chǎn)生各種后果。

長按掃碼 閱讀全文