原標(biāo)題:除了制造“逼真假臉”,GANs還在看不見的角落里悄悄搞事情
自2014年誕生之日起,GANs(Generative Adversarial Nets,生成對抗網(wǎng)絡(luò))就一直是機(jī)器學(xué)習(xí)領(lǐng)域的“流量擔(dān)當(dāng)”,過去的兩年間更是迎來了成果井噴。
有人還專門為它建立了一個(gè)GAN Zoo,用來收集所有已被命名的GAN,目前已經(jīng)有500多個(gè)了。欣賞一下這令人咋舌的增長曲線:
盡管GANs的進(jìn)步是日新月異,但仔細(xì)觀察一下就會發(fā)現(xiàn),最廣為人知的吸睛案例,大都集中在娛樂領(lǐng)域,而且不乏吐槽之聲。
比如從去年年底英偉達(dá)推出的GAN,合成的人臉幾乎能夠以假亂真,一眾媒體直呼“可怕”。前不久它終于有了自己的名字“StyleGAN”,源代碼也免費(fèi)公布,立馬又被愛搞事情的網(wǎng)友送到了風(fēng)口浪尖上。
來自Uber的軟件工程師Philip Wang利用styleGAN做了一個(gè)網(wǎng)站,每次刷新都會生成一個(gè)“現(xiàn)實(shí)中不存在”的人臉,逼真得令人毛骨悚然。很快就有網(wǎng)友表示,看到了一張跟自己一樣的臉,然后她就真的不存在了……這個(gè)賽博朋克式的神展開,立馬讓大家?guī)肓吮弧凹倌槨敝涞目謶帧?/p>
當(dāng)然,除了探討照片是否可信、帶來識別安全問題怎么辦這些問題之外,或許我們也應(yīng)該關(guān)注一下,為什么GANs一路進(jìn)化,大多數(shù)研究卻總是聚焦在換臉技術(shù)上呢?
這場熱鬧非凡的換臉游戲背后,恐怕隱藏著一個(gè)GANs從算法走向產(chǎn)業(yè)道路上最難突破的瓶頸。
GANs新成員:換臉技術(shù)哪家強(qiáng)?
GANs從出道那天開始,“圖像生成”就是最能打的一塊招牌。而在各種各樣GANs中,“新晉網(wǎng)紅”styleGAN,絕對是面部生成的技術(shù)擔(dān)當(dāng)。
關(guān)于英偉達(dá)這個(gè)新模型,我們?nèi)ツ昃偷谝粫r(shí)間解讀過,在此不再贅述。簡單來說,就是讓生成器模仿風(fēng)格遷移算法的方法,學(xué)會識別出更高級、也更有意義的特征變化(比如年齡、臉部細(xì)節(jié)等等),從而讓圖像生成效果更加逼真。
同時(shí),styleGAN的識別效率也大幅度提升,能夠自動分離圖像中的變化,開發(fā)者能夠以直觀的方式控制合成結(jié)果。加上前不久英偉達(dá)開放了圖像數(shù)據(jù)集和styleGAN的源代碼,自然吸引了不少技術(shù)大佬們躍躍欲試。
有用它“造老婆”的,一位名叫roadrunner01的程序猿,用大量二次元少女的圖片訓(xùn)練StyleGAN,各種風(fēng)格的紙片人妹子任由選擇。
當(dāng)然還有裝逼失敗的。由于準(zhǔn)備不充分,靠StyleGAN生成假臉的網(wǎng)站“thispersondoesnotexist”就被群嘲了,因?yàn)榫W(wǎng)友在上面找到了幾乎和自己一樣的臉,就此掀起了一陣“刷新一次消失一個(gè)人類”的都市靈異文學(xué)創(chuàng)作熱情。真的是,沒有全球70億人的人臉數(shù)據(jù)集,就不要攬瓷器活兒啊。
不僅圖像能造假,視頻也沒逃過此劫。去年年初,基于GAN的視頻換臉術(shù)Deepfakes,就被用來制造了一大堆足以亂真的假視頻,奧巴馬、斯嘉麗·約翰遜、神奇女俠蓋爾加朵、楊冪、劉亦菲等中外名人紛紛成了假視頻的主角。
盡管GANs的進(jìn)展很令人欣喜,但一個(gè)尷尬而無奈的現(xiàn)實(shí)也就此清晰地呈現(xiàn)在了它的進(jìn)化之路上——絕大多數(shù)成果都聚焦在圖像生成上,并且常常以娛樂、夸張的形式出現(xiàn),“逆天”“以假亂真”“被色情”等新聞不絕于耳。
人臉生成的效果太好、門檻太低,正在挑戰(zhàn)著公眾的辨別能力,讓大眾對網(wǎng)絡(luò)內(nèi)容和圖像證據(jù)的信任進(jìn)一步坍塌,而那些大眾期待的、GANs真正改變產(chǎn)業(yè)和生活的效用,卻仿佛集體失聲了。怎么回事?
除了“逼真假臉”,GANs還有哪些打開方式?
首先要替GANs澄清一下,作為一個(gè)能自我判別和推倒出新樣本的生成算法,它能應(yīng)用的訓(xùn)練場景和商業(yè)前景是非常大的。而且,正在勤勤懇懇地“為人民服務(wù)”,為不少產(chǎn)業(yè)的進(jìn)化添磚加瓦。比如:
1.影視創(chuàng)作
創(chuàng)作是最考驗(yàn)想象力和藝術(shù)張力的地方,也是越來越勞動密集型的產(chǎn)業(yè)之一。在工業(yè)制作體系成熟的好萊塢,一部電影從編劇到營銷團(tuán)隊(duì)往往多大數(shù)千人。而GAN恰恰可以改變這樣昂貴而高風(fēng)險(xiǎn)的生產(chǎn)過程。
項(xiàng)目前期,GAN可以利用文字描述生成相匹配的逼真圖像,快速打破次元壁,高效而還原地生成電影腳本,避免因?yàn)楫嬶L(fēng)跑偏而收獲原著粉贈送的“人參萬兩”;
在后期剪輯上,IBM正在利用以GAN為基礎(chǔ)的AI算法,去識別視頻中的臺詞和場景的意義,根據(jù)角色的心情、劇情的復(fù)雜程度以及前后片段的關(guān)聯(lián)程度,快速生成電影宣傳片,大幅壓縮了制作成本和時(shí)間周期。
2.圖像修復(fù)
現(xiàn)實(shí)中,我們常常會面對一些歷史原因而辨識體驗(yàn)較差的圖像,比如被損毀的文物殘片、消失了一半的古建筑、上個(gè)世紀(jì)創(chuàng)作的游戲或電影,對它們進(jìn)行修復(fù)或復(fù)刻,往往只能依靠某些專精技術(shù)人員日以繼夜的努力?,F(xiàn)在在GAN的幫助下,可以更高效地還原和處理這些瑕疵部分。
比如在英偉達(dá)的一篇論文中,就闡述了它是如何用GAN訓(xùn)練出的“圖像翻譯網(wǎng)絡(luò)”(Partial Convolutions)為圖像上的建筑和場景補(bǔ)上缺失部分的。
一些超經(jīng)典的游戲,比如《重返德軍總部》、《上古卷軸 III》、《馬克思·佩恩》等,都陸續(xù)被 ESRGAN(增強(qiáng)型超分辨率生成對抗網(wǎng)絡(luò))進(jìn)行了重置。畫面變得更加精美的同時(shí),還忠實(shí)地保留了原來的藝術(shù)風(fēng)格,以后玩家和劇迷們再也不用擔(dān)心心愛的作品被人工改得面目全非了。
(《馬克思·佩恩》原版截圖VSESRGAN重制后的截圖)
3.個(gè)性時(shí)尚導(dǎo)師
除了還原,GANs還具備超強(qiáng)的想象力,可以通過多元樣本進(jìn)行判斷與生成,從而輸出個(gè)性化又風(fēng)格統(tǒng)一的方案。比如亞馬遜和阿里巴巴都在打造的“時(shí)尚人工智能”(FashionAI),就是利用GANs實(shí)現(xiàn)的。加載了GANs的電商推薦系統(tǒng)不僅能夠向用戶提供個(gè)性化的時(shí)尚搭配建議,而且還能夠?qū)⒍S商品圖轉(zhuǎn)化成3D試穿效果圖,從而幫助商家進(jìn)行服裝銷售。
研究人員利用亞馬遜商城用戶在六種商品(男女款式的鞋類,上裝,下裝)的購買數(shù)據(jù)來分析其商品偏好,然后訓(xùn)練出相應(yīng)的GAN模型。阿里巴巴的新零售線下店,也是采用了該技術(shù)來向店內(nèi)顧客展示和推薦商品。
4.新成分預(yù)測
除了這些觸手可及的現(xiàn)實(shí)應(yīng)用,GANs在產(chǎn)業(yè)端更值得期待的價(jià)值,還體現(xiàn)在新藥研發(fā)和材料學(xué)領(lǐng)域,比如用來生成新的藥學(xué)分子結(jié)構(gòu)和合成新材料等等。
有數(shù)據(jù)統(tǒng)計(jì),每種新藥研發(fā)大約需要10年時(shí)間。期間,制藥公司需要設(shè)計(jì)合成成千上萬的分子,然后一一進(jìn)行生物學(xué)測試,成功率往往卻只有2萬至3萬分之一。有了GANs,就能相關(guān)信息對分子結(jié)構(gòu)進(jìn)行高精度的樣本預(yù)測,加快實(shí)驗(yàn)進(jìn)度的同時(shí),全新的未知成分顯然更有可能幫助人類攻克懸而未決的醫(yī)學(xué)難題。
因此,盡管這一應(yīng)用目前還停留在創(chuàng)意階段,但其背后的商業(yè)想象空間卻格外巨大。
目前來看,GANs正在一群產(chǎn)業(yè)巨頭們的支持下,開啟了更廣闊的應(yīng)用場景探索之路。這場技術(shù)拉力賽,并不只有奇聞異事,而是在真槍實(shí)戰(zhàn)中打磨出了金子般的光芒。
為什么出風(fēng)頭的總是“變臉”?
既然GANs已經(jīng)斬獲了這么多成績,為什么一提起來,大家想到的總是“照騙”“視騙”這些販賣焦慮的新聞呢?那些干實(shí)事的模型不配有姓名嗎?
客觀來說,一項(xiàng)新技術(shù)要證明自己的強(qiáng)大之處,用一些“逆天”“超越人類想象”之類夸張的效果來迅速被大眾所認(rèn)知,這不難理解。
但GANs之所以被這些“造假”新聞淹沒,還要感謝將股價(jià)押注在AI身上的英偉達(dá)不斷造勢,而“以假亂真”“令人害怕”的新聞背后,更關(guān)系著媒體們無數(shù)爆款文的績效,在這樣的雙重推動下,“只知換臉,無論其他”的GANs自然愈發(fā)深入人心了。
而那些下沉在產(chǎn)業(yè)端的GANs應(yīng)用,又為何都如此“謹(jǐn)小慎微”、罕見發(fā)聲呢?一方面GANs自身還有一些缺陷尚待解決,導(dǎo)致其成果并不穩(wěn)定。
比如模式坍塌 (Mode collapse)問題,在復(fù)雜且多模態(tài)的自然數(shù)據(jù)集中,生成器只能從相似樣本的模式集中生成樣本,這將直接限制結(jié)果的多樣性,從而影響使用。
另外,在GANs相關(guān)訓(xùn)練中,很難精準(zhǔn)地判斷合適能生成高質(zhì)量的作品,現(xiàn)實(shí)中顯然不可能投入無限多的時(shí)間和資源去等待一個(gè)未知的訓(xùn)練結(jié)果。因此,今天說到的應(yīng)用案例,都更具示范價(jià)值和探索意義,距離大規(guī)模應(yīng)用還有一段路要走。對于企業(yè)來說,貿(mào)然推出不成熟的產(chǎn)品反而會引發(fā)群嘲,自然更愿意低調(diào)行事、關(guān)門打磨產(chǎn)品了。
更重要的是,GANs需要大量商業(yè)數(shù)據(jù)的投喂,才能發(fā)揮出實(shí)驗(yàn)室類似的效果。而無論是數(shù)據(jù)成本還是算力成本,都決定了GANs所代表的便利和可能性,目前只對一些產(chǎn)業(yè)巨頭有用。
這也是為什么,除了學(xué)界和個(gè)人開發(fā)者偶爾搞點(diǎn)“聳人聽聞”的大新聞,GANs至今還沒能在現(xiàn)實(shí)領(lǐng)域中遍地開花。
不過,娛樂往往是速朽的,“造假”恐怖事件玩得多了,大眾也會產(chǎn)生審美疲勞,最終很可能將一個(gè)特殊領(lǐng)域的潛在危險(xiǎn),變成對整個(gè)技術(shù)的泛在質(zhì)疑。不要讓一切值得思考的,都成為娛樂的附庸。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。