以往,我們提起AI,有一個共識,即它在某些方面已經(jīng)碾壓人類,比如下圍棋;它在另一些方面遠(yuǎn)不及人類,比如認(rèn)識一只動物、認(rèn)識很多只動物。這是因?yàn)椋蛑皇?a href="http://m.ygpos.cn/AI_1.html" target="_blank" class="keylink">AI自主學(xué)習(xí)能力遠(yuǎn)不及人。
前幾天,AlphaGo Zero橫空出世,從零開始,閉關(guān)72小時自我對弈圍棋,即100:0完勝之前用了幾個月時間成長、勝了李世乭的AlphaGo。這似乎表明,開發(fā)某個專項(xiàng)智能時,深度學(xué)習(xí)AI算法不再像過去那樣動輒需要的百萬、千萬量級的有監(jiān)督大數(shù)據(jù),算法甚至可以從0數(shù)據(jù)開始自主學(xué)習(xí),頂多只需大規(guī)模無監(jiān)督數(shù)據(jù),算法即可以從0開始自主學(xué)習(xí)。
于是,很多人驚呼AI自主學(xué)習(xí)的時代到來了。似乎很快就會有一個叫做AI Zero的學(xué)神小寶貝橫空出世,自主狂學(xué)一個月,馬上長大成人,變成一個智商、情商超越人類的AI 100。
但事實(shí)恐怕似乎并非如此。
我本人是做計(jì)算機(jī)視覺研究工作的,尤以人臉識別方面的研究比較多。便借AlphaGo Zero之東風(fēng),我也做了個Face Zero的夢,想了想:人臉識別從0自主學(xué)習(xí)的可能性。
AlphaGo Zero從0自造數(shù)據(jù)的思想很難擴(kuò)展到Face Zero
先看看AlphaGo Zero學(xué)神怎么做的:從0開始自造數(shù)據(jù)。對人臉來說,這個第一步就有點(diǎn)懸了,如何造人臉呢?圍棋有明確的落子規(guī)則和輸贏判斷準(zhǔn)則,按規(guī)則模擬對弈即可造出大量有監(jiān)督的數(shù)據(jù)??扇四樔绾螐?造?如果沒有任何的人臉樣例或知識,除非上帝他老人家在,否則怕只能造一堆“鬼臉”出來——反正誰也沒見過鬼,怎么造都行。
如果這樣,怕是這夢只能醒了。
那,至少給一張人臉,讓算法自己“舉一反三”,創(chuàng)造千千萬萬張人臉可行嗎?比如給算法一張大奧黛麗赫本的人臉圖像,讓算法把赫本這張人臉照片變啊變,變出1000幅赫本女神的人臉圖出來,再變出1000幅成千上萬不是赫本女神的人臉、但長相合理的人臉。
且不說怎么變形的難題,這里面存在兩個疑問有兩個問題需要解決:如何保證算法“舉一反三”變出來的人臉還是女神的臉而不是孫悟空、豬八戒的臉部照?以及,如何保證算法可以“舉一反三”變出孫悟空奧巴馬、貓王等各種人的臉部照?要解決這兩個疑問問題,我們需要大量人臉的樣例或其他知識,比如人臉的3D結(jié)構(gòu)、成像的物理模型、老化模型、表情模型、眼鏡模型等等。
這就和最初“給一張人臉”的假設(shè)矛盾了,這夢便只能是南柯夢了。
再退一步,即使假設(shè)我們有赫本女神人臉的3D結(jié)構(gòu)和成像模型等。也還會有一個,這兩個問題問題仍然需要解決:什么幅度的3D形變,比如變胖或變瘦或變老,可以確保還是赫本本人而不會變成是其他人? 什么樣的形變可以確保變出一個合理的人臉,而不會變出一個史瑞克或豬八戒?
人臉識別在這里體現(xiàn)出一個和圍棋對弈的較大差別:圍棋有明確的勝負(fù)判定規(guī)則,而人臉識別并沒有一個這樣的“判定”規(guī)則。所以,人臉識別算法如果也使用對AlphaGo至關(guān)重要的增強(qiáng)學(xué)習(xí)方法,借“試錯”實(shí)現(xiàn)自主學(xué)習(xí),不太現(xiàn)實(shí)。這就像學(xué)生做模擬題,如果做完題不給他答案,不給他講錯在哪,什么是對。他恐怕難以進(jìn)步。
AlphaGo Zero使用大量無監(jiān)督數(shù)據(jù)的思路也很難擴(kuò)展到Face Zero[Shan1]
退一步,看看AlphaGo Zero其他地方有沒有值得借鑒的。據(jù)AlphaGo Zero的論文所說,其核心之處是用增強(qiáng)學(xué)習(xí)來自動學(xué)習(xí)用于啟發(fā)式搜索的評分函數(shù)(價值網(wǎng)絡(luò))。對人臉識別來說,其核心實(shí)際上也是學(xué)習(xí)一種評分函數(shù),即計(jì)算兩張人臉照片的相似程度:同一人圖像相似度盡量高,不同人相似度盡量低。
看起來有點(diǎn)機(jī)會。既然從0或從1開始不行,那么,是否可以給算法1億張無監(jiān)督(即沒有標(biāo)簽)的人臉照片數(shù)據(jù),然后讓Face Zero學(xué)習(xí)借鑒AlphaGo Zero的思路學(xué)習(xí)評分函數(shù)呢?,給人臉識別算法大量無監(jiān)督的或者說是沒有標(biāo)簽的數(shù)據(jù),讓它自主學(xué)習(xí)。
但是遺憾的是這也不行。,因?yàn)槲覀兪褂玫氖菬o監(jiān)督人臉圖像,我們不知道這1億幅人臉圖像是多少人的圖像,其中哪些是同一人的,人臉識別算法又不能像圍棋算法一樣自己判斷對錯和好壞,當(dāng)然就沒辦法自我便增強(qiáng)不起來。
所以學(xué)習(xí)這個相似度評分函數(shù)失去了依據(jù)。
又是南柯一夢。
看到這里,懂生成式對抗網(wǎng)絡(luò)(GAN)的讀者可能會反駁:有了大量人臉圖像,即使是無監(jiān)督的,我們也可以用GAN這樣的類“增強(qiáng)學(xué)習(xí)”策略來生成各種看起來符合真實(shí)人臉“分布”的人臉圖像。
這樣一來,給定一張赫本女神的人臉圖像,F(xiàn)ace Zero就可以生成她的各種美圖了嗎?可是,問題在于,沒有了那些重要的監(jiān)督信息,只能保證GAN生成的圖像只能保證生成的人臉人臉圖像看起來是張臉,但沒法保證她不會變孫悟空、貓王或奧巴馬。
這舉一反三的想法,恐怕還是不行。
AlphaGo Zero的思想對減少人臉識別有監(jiān)督數(shù)據(jù)需求量的價值較小
再退一步,AlphaGo Zero的思想是否可用于減少有監(jiān)督數(shù)據(jù)的需求量呢?例如,按照目前的方法論,用深度學(xué)習(xí)做人臉識別,首先需要收集整理盡量多的人臉圖像,比如100萬人的1億張有標(biāo)注的照片,然后讓深度學(xué)習(xí)算法用這些圖像學(xué)習(xí)如何提取可以區(qū)分不同人臉的好特征或者如何計(jì)算相似度評分函數(shù)。
比如,先給人臉識別算法提供1萬人的有標(biāo)注人臉圖像,讓它學(xué)會區(qū)分1萬人的人臉,然后讓它“舉一反百”、“舉一反千”、“舉一反萬”,即從這1萬人造出100萬人、1000萬人、1億人,甚至全球所有人的圖像。
這個想法如果可行,那我們對數(shù)據(jù)的需求量就減少了100倍,這意味著在收集和標(biāo)注數(shù)據(jù)方面,大幅降低了使用深度學(xué)習(xí)算法的成本,從而使得深度學(xué)習(xí)算法的易用度“蹭蹭”的提高。
為此,一種可能的辦法是用GAN這樣的類增強(qiáng)對抗算法“創(chuàng)造”不同的人臉。在“創(chuàng)造”第10001個人的面部圖像時,要求其既與之前的10000人都不同,又要確保第10001個人的面部圖像看起來是真實(shí)的照片,而不是卡通人像或鬼臉。
遺憾的是,按照目前GAN的思想,是有局限的。GAN可以“內(nèi)插式創(chuàng)造”,要“外延式創(chuàng)造”是有極大風(fēng)險的,設(shè)想:如果算法能從10000個白人自動外延出從沒見過的某個黃種人,怎么保證不外延出綠巨人?如果算法能從10000個鵝蛋臉自動外延創(chuàng)造出從沒見過的國字臉,怎么保證不創(chuàng)造出被壓扁的長條臉?
這是一個大規(guī)模人臉識別系統(tǒng)不允許的,尤其是如果該系統(tǒng)被應(yīng)用于安防或者金融領(lǐng)域。
那么,我們把GAN的能力限定在內(nèi)插式創(chuàng)造。這要求我們在上面提到的10000個人具有足夠的代表性。“代表人”經(jīng)過精心挑選,均勻覆蓋各種面部屬性,如膚色、男女、臉型、眉形、眼型、嘴型、高低鼻梁、高低顴骨、粗細(xì)肌膚……這樣一來,就可以內(nèi)插創(chuàng)造出各種可能的人臉了。
但是,10000人是否足夠代表整個人類的特征?這里涉及幾十甚至上百種面部屬性的組合。每多一個面部屬性,組合結(jié)果的數(shù)量便多幾倍,呈指數(shù)爆炸式增長。就算每個屬性只有2個可能的取值,比如男女,即使只有14種面部屬性就有超過10000種組合。更何況,很多屬性有很多取值,比如臉型、膚色、眼型,組合數(shù)就更多了。
如果每種組合我們需要至少一個“代表人”(實(shí)際可能有些組合1個代表還不夠,也有可能某種組合并不存在),這意味著我們需要的“代表人”數(shù)恐怕遠(yuǎn)遠(yuǎn)不止10000人…
Face Zero的夢真要醒了嗎?
減少有監(jiān)督數(shù)據(jù)需求量的其他可能
別急著放棄做夢,上面的推演中并沒有考慮人類對面孔的認(rèn)識。以人臉識別為例,解剖學(xué)專家或許可以制定出一些“規(guī)則”,告訴我們什么樣的臉部改造可以“創(chuàng)造”出不同但又實(shí)際存在的人臉。如此,便可使用少量有監(jiān)督數(shù)據(jù)“創(chuàng)造”出或者說“虛擬”出大量數(shù)據(jù),從而使得深度學(xué)習(xí)的易用性更高。
舉個例子,如果我們有10000個“代表人”的3D頭部模型,以及相應(yīng)的可以修改這些頭部模型的方法,加上上述的“解剖學(xué)專家經(jīng)驗(yàn)”,就可以像上帝一樣創(chuàng)造出千千萬萬的人臉,且還是實(shí)際存在的、合理的人臉,而非綠巨人的人臉。
這樣一想,似乎最開始的想法在一定程度上成真了。但遺憾的是,這種想法離我們最初渴望的從0自主學(xué)習(xí)差了十萬八千里了:既需要眾多的精確監(jiān)督3D人臉數(shù)據(jù),又引入了大量的不容易用程序?qū)崿F(xiàn)的“專家知識”。
總之,僅僅以人臉識別Face Zero為例,AlphaGo Zero的啟發(fā)是微弱的。謹(jǐn)慎樂觀的說有一些,但這種啟發(fā)并非AlphaGo Zero帶來的,而是那個下圍棋勝過李世乭的AlphaGo,甚至之前就已經(jīng)有的“對抗增強(qiáng)”思想(GAN)帶來的。
這令人遺憾。實(shí)際上不僅僅對人臉識別,對自然圖像識別任務(wù),對語音識別任務(wù),對醫(yī)療診斷任務(wù),對自動駕駛任務(wù)等眾多問題,AlphaGo Zero的算法都難以產(chǎn)生直接的作用。背后的根本原因在于,:與圍棋最終可以自判輸贏不一樣,對這些任務(wù)人臉識別算法不具備AI算法自己判斷對錯的能力,也就難以形成以自我獎懲為目標(biāo)的自主學(xué)習(xí)。
作者注:本文的推演并不說明AlphaGo Zero的算法對所有AI問題都沒有價值,事實(shí)上,它對一大類AI問題的解決,特別是棋類、游戲類、模擬訓(xùn)練等任務(wù),將帶來方法論上的巨大變遷。
[Shan1]AlphaGo Zero并沒有強(qiáng)調(diào)無監(jiān)督數(shù)據(jù)的事情
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 文旅類:品牌較量的新高地丨第十六屆虎嘯獎?wù)髻愡M(jìn)行中!
- 答案即將揭曉|2024視聽圈,誰在突破重圍,誰在改變未來?
- 十余年煉就細(xì)分王者,這家激光企業(yè)“毫厘之間見真功”
- 銅業(yè)龍頭齊聚南昌!SMM銅業(yè)大會第一波進(jìn)程函搶先看!
- IBS 2025 第十三屆中國國際生物質(zhì)能源與有機(jī)固廢資源化利用高峰論壇
- 關(guān)于舉辦“ IBS 2025 第十三屆中國國際生物質(zhì)能源與有機(jī)固廢資源化利用高峰論壇 ”的通知
- 項(xiàng)目征集 | 第十五屆納博會創(chuàng)新創(chuàng)業(yè)大賽暨第六屆微納制造創(chuàng)新創(chuàng)業(yè)大賽路演報名開啟!
- 全球移動應(yīng)用出海峰會圓滿落幕 點(diǎn)擊馬上查收2025出海增長搶跑策略!
- 第二十五屆亞太海洋油氣大會
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。