谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà) 來(lái)看神經(jīng)網(wǎng)絡(luò)的大作長(zhǎng)啥樣

雷鋒網(wǎng)AI科技評(píng)論按:雖然簡(jiǎn)筆畫(huà)與實(shí)物的逼真程度相去甚遠(yuǎn),但即便是一個(gè)小孩也能輕易理解圖案中的內(nèi)容。原因其實(shí)很簡(jiǎn)單,因?yàn)槿祟惗猛ㄟ^(guò)判斷圖案中的關(guān)鍵特征,與現(xiàn)實(shí)物體進(jìn)行匹配。那么,如果是用 RNN 教機(jī)器學(xué)會(huì)畫(huà)畫(huà),它是否能抽象出畫(huà)中的概念,并用同樣的方式作畫(huà)呢?谷歌大腦的 David Ha 近日撰文指出了他與 Douglas Eck 在研究 sketch-rnn 時(shí)的一些想法和觀點(diǎn)。

人們?cè)趥鬟f思想、進(jìn)行交流時(shí)有一個(gè)非常關(guān)鍵的要素,那就是懂得如何用抽象的視覺(jué)內(nèi)容進(jìn)行溝通。我們從小就培養(yǎng)孩子用畫(huà)筆描述事物的能力,畫(huà)出一個(gè)物體甚至表達(dá)自己的情緒。這些簡(jiǎn)筆畫(huà)并不一定像照片一樣逼真,但誠(chéng)然,它們傳遞出了人們?nèi)绾沃噩F(xiàn)與重構(gòu)身邊事物的方法。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

一些 sketch-rnn 創(chuàng)作的畫(huà)

在 David Ha 與 Douglas Eck 合作的論文《A Neural Representation of Sketch Drawings》中,研究者設(shè)計(jì)了一個(gè)名為「sketch-rnn」的生成式 RNN,它能夠用簡(jiǎn)單的筆觸描繪出日常物體,系統(tǒng)旨在訓(xùn)練機(jī)器如何像人類一樣提煉事物的抽象概念。

研究者在一個(gè)手繪 sketches 數(shù)據(jù)集中進(jìn)行訓(xùn)練,控制提筆落筆的時(shí)間及方向,進(jìn)而創(chuàng)造一個(gè)具有可觀前景的應(yīng)用:不僅能幫助藝術(shù)家迸發(fā)藝術(shù)靈感,還能教授學(xué)生繪畫(huà)的基本技巧。

鑒于采用神經(jīng)網(wǎng)絡(luò)之時(shí),生成模型用于訓(xùn)練的圖像過(guò)多,圖像以 2D 像素的點(diǎn)陣圖來(lái)構(gòu)建。而由于它所具有的高解析度,這些模型很容易會(huì)生成一些連續(xù)的圖像結(jié)構(gòu),比如會(huì)畫(huà)出三只眼睛的貓,或是幾個(gè)頭的狗。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

采用 128*128 ImageNet 數(shù)據(jù)集訓(xùn)練的 GANs 模型,可能會(huì)產(chǎn)生像上圖這樣的詭異情況。

上圖為 Ian Goodfellow 在 NIPS 2016 Tutorial 展示 GANs 時(shí)所采用的圖片

而在谷歌大腦研究者的工作中,他們受人類繪畫(huà)的啟發(fā),采用了更低維的、基于向量的方式。Sketch-rnn 基于 seq2seq(雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))注:前段時(shí)間雷鋒網(wǎng)做過(guò)覆蓋和報(bào)道)的自動(dòng)編碼框架,結(jié)合變分推斷并采用了超網(wǎng)絡(luò)作為 RNN 的核心。

seq2seq 的作用在于訓(xùn)練隱向量(latent vector),即一個(gè)能夠?qū)⑤斎胄蛄芯幋a為浮點(diǎn)數(shù)向量的網(wǎng)絡(luò),以此在盡可能逼真地模擬輸入序列的情況下,利用解碼器重構(gòu)輸出序列。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

實(shí)驗(yàn)過(guò)程

在模型中,研究者故意往 latent vector 中加入了一些噪聲,而實(shí)驗(yàn)結(jié)果呈現(xiàn),模型在噪聲的干擾下不能非常準(zhǔn)確地重現(xiàn)輸入的內(nèi)容,但依然捕捉到了連同噪聲在內(nèi)的關(guān)鍵信息。解碼器將隱向量進(jìn)行處理,并產(chǎn)生了一個(gè)能構(gòu)建簡(jiǎn)筆畫(huà)的動(dòng)態(tài)序列。研究者們輸入了幾個(gè)小貓的簡(jiǎn)筆畫(huà)內(nèi)容,而機(jī)器進(jìn)行后重構(gòu)產(chǎn)生的圖畫(huà)又是怎樣的呢?答案就是像下面這樣:

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

模型通過(guò)訓(xùn)練人類所畫(huà)的小貓簡(jiǎn)筆畫(huà)而重構(gòu)的圖畫(huà)

值得強(qiáng)調(diào)的是,模型并不是簡(jiǎn)單地照貓畫(huà)虎,面是學(xué)習(xí)了輸入特征后,重新按照理解再畫(huà)圖的。也就是說(shuō),模型是學(xué)會(huì)了「畫(huà)貓的方式」后,根據(jù)自己的理解再作圖的。

比如,當(dāng)研究者故意畫(huà)了一個(gè)三只眼睛的貓作為輸入,模型基于對(duì)常識(shí)的認(rèn)知,生成的依然是兩只眼的貓。而為了拓寬系統(tǒng)認(rèn)識(shí)物體的多樣性,研究者加入了迥然不同的內(nèi)容,比如一把牙刷。從圖中可以發(fā)現(xiàn),系統(tǒng)依然將牙刷抽象成了一只貓的樣子(比如尖耳朵和觸須)。這一結(jié)果表明,神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)會(huì)了從輸入中抽象出貓的概念,也能根據(jù)隱向量重構(gòu)新的簡(jiǎn)筆畫(huà)。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

如果你還是將信將疑的話,下面這個(gè)小豬的例子或許可以說(shuō)服你。八條腿的小豬和卡車「亂入」了訓(xùn)練數(shù)據(jù)中,但在神經(jīng)網(wǎng)絡(luò)的理解中,小豬只有四條腿,而卡車看起來(lái)也具有小豬的樣子(比如有條小尾巴)。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

為了了解為何隱向量是如何抽象出動(dòng)物的體征概念,研究者首先采用了兩幅不同的小豬畫(huà)(一幅只有頭,一幅是全身)獲得不同的隱向量,并在這兩個(gè)隱向量計(jì)算差值,并在生成簡(jiǎn)筆畫(huà)后進(jìn)行可視化。可以看到,隱向量掌握了鼻子與頭的相對(duì)位置,并且在逐步的嘗試后形成了身體和腿的概念。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

那么,如果是不同的動(dòng)物進(jìn)行融合,如何整合它們的特征?研究者分別輸入了一個(gè)貓頭和一個(gè)全身小豬的圖像,從左往右看可以發(fā)現(xiàn),小貓開(kāi)始長(zhǎng)出尾巴和身子,最后貓的頭逐步被抽象化,最后變成一只小豬。當(dāng)然,反過(guò)來(lái)試驗(yàn)的結(jié)果也是一樣的。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

這個(gè)實(shí)驗(yàn)意味著隱向量確實(shí)對(duì)抽象的概念特征進(jìn)行了解碼,但我們是否能采用這些特征擴(kuò)大繪畫(huà)的靈活性,比如給小貓的頭加上身子?

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

在學(xué)習(xí)中,系統(tǒng)懂得了一些「公式」

研究者發(fā)現(xiàn)可將身體的部分進(jìn)行分類,采用一些公式性的編碼讓系統(tǒng)理解內(nèi)容,比如將不同的隱向量加在「貓頭」上,就能得到想要的結(jié)果(貓頭+身子=全身貓)。這一舉措得以讓研究者更好地探究模型是如何組織它的隱空間(latent space),以表達(dá)不同的概念。

創(chuàng)造性應(yīng)用

研究者不僅為實(shí)驗(yàn)結(jié)果而振奮,也同時(shí)為 sketch-rnn 未來(lái)可能的應(yīng)用方向而高興。比如圖案設(shè)計(jì)者們能夠用該網(wǎng)絡(luò)生成非常多看起來(lái)相似,但實(shí)際上又有各自特色、能用于不同場(chǎng)景的設(shè)計(jì)圖案。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

從框內(nèi)圖案生成的相似但各具風(fēng)格的小貓

而就像我們先前看到的一樣,畫(huà)小豬的模型如果加入了卡車的圖畫(huà),也能夠畫(huà)出有著小豬特征的卡車。研究者將這一結(jié)果拓展開(kāi)來(lái),認(rèn)為這能夠給設(shè)計(jì)者提供抽象設(shè)計(jì)的靈感。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

在向小貓模型中輸入了四把姿態(tài)各異的椅子圖案之后,模型學(xué)習(xí)了椅子的特征,進(jìn)而生成了各種具有椅子特征的小貓,并產(chǎn)生了多種設(shè)計(jì)方案。研究者相信,將不同種類的事物交給神經(jīng)網(wǎng)絡(luò),可能產(chǎn)生意想不到的交互和想象。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

此外,研究者們還將 sketch-rnn 的模塊解碼成單獨(dú)模型,讓系統(tǒng)嘗試在不完整圖畫(huà)的基礎(chǔ)上「腦補(bǔ)」內(nèi)容。下圖是系統(tǒng)產(chǎn)生出的一些靈感閃現(xiàn)的圖案。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

甚至,同一個(gè)模型也能充分發(fā)揮機(jī)器的想象力。研究者用圓形和正方形的圖案讓系統(tǒng)自由作畫(huà),進(jìn)而有了火烈鳥(niǎo)、螞蟻、貓頭鷹、直升機(jī)等等結(jié)果。設(shè)計(jì)者在研究這些機(jī)器產(chǎn)生的圖案時(shí)在,也能夠設(shè)計(jì)出富有創(chuàng)造力的作品。

谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà),神經(jīng)網(wǎng)絡(luò)的大作都長(zhǎng)啥樣?

Sketch-rnn 能夠讓機(jī)器作為人類靈感的來(lái)源,也可以有非常多的應(yīng)用。而機(jī)器與人類的交互與溝通,在未來(lái)的想象空間是無(wú)窮的。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-04-14
谷歌大腦教機(jī)器畫(huà)簡(jiǎn)筆畫(huà) 來(lái)看神經(jīng)網(wǎng)絡(luò)的大作長(zhǎng)啥樣
雖然簡(jiǎn)筆畫(huà)與實(shí)物的逼真程度相去甚遠(yuǎn),但即便是一個(gè)小孩也能輕易理解圖案中的內(nèi)容。原因其實(shí)很簡(jiǎn)單,因?yàn)槿祟惗猛ㄟ^(guò)判斷圖案中的關(guān)鍵特征,與現(xiàn)實(shí)物體進(jìn)行匹配。那么,如

長(zhǎng)按掃碼 閱讀全文