點(diǎn)擊就看新NLP模型如何穩(wěn)準(zhǔn)狠狙擊杠精

看完《無(wú)敵破壞王2:大鬧互聯(lián)網(wǎng)》,資深迪粉的我不禁感慨,我迪自黑和黑起互聯(lián)網(wǎng)來(lái),也是無(wú)人出其右。

不僅深度“曝光”了互聯(lián)網(wǎng)充斥著木馬病毒、彈窗廣告、暗網(wǎng)之類的“陰暗面”,一幕熱門視頻網(wǎng)站“BuzzzTube”所展現(xiàn)的“人間真實(shí)”也令人印象深刻:在網(wǎng)絡(luò)平臺(tái)上,算法可以讓一個(gè)普通人成為點(diǎn)贊無(wú)數(shù)、收入激增的網(wǎng)紅,卻難以阻擋網(wǎng)友們贈(zèng)送的“人參”萬(wàn)兩。

當(dāng)拉爾夫在后臺(tái)驚愕地看到無(wú)數(shù)負(fù)面評(píng)價(jià)并為之難過(guò)時(shí),網(wǎng)站的負(fù)責(zé)人“贊姐”(Yesss) 也只能建議他——“別看評(píng)論區(qū)……”

這不就是我們每天都會(huì)在網(wǎng)絡(luò)中圍觀的大型杠精現(xiàn)場(chǎng)嗎?

無(wú)論國(guó)別、無(wú)論次元,只要網(wǎng)上沖浪,就會(huì)遇到水軍、鍵盤俠、噴子、杠精……總有一款奇葩網(wǎng)友在線教你做人,社交媒體上的“網(wǎng)怒癥”也以指數(shù)級(jí)增長(zhǎng)。

當(dāng)然,平臺(tái)們也并非無(wú)所作為,只不過(guò),他們似乎總是用不對(duì)方法。

比如微博去年就打響了史上最狠評(píng)論區(qū)保衛(wèi)戰(zhàn),推出了凈化功能“拉黑禁言”,只要評(píng)論引發(fā)博主不適并被拉黑,亂發(fā)言的賬號(hào)三天內(nèi)無(wú)法再發(fā)出任何一條評(píng)論。推出后確實(shí)震懾到了不少杠精,不過(guò)弊端也很明顯,那就是依賴網(wǎng)絡(luò)紅人大v博主們一人戰(zhàn)杠精,工作量和維護(hù)成本也未免也太大了吧?

既然人肉審查效率太低,那采用自動(dòng)化呢?Youtube和Facebook以實(shí)際行動(dòng)告訴我們,想要讓系統(tǒng)精準(zhǔn)識(shí)別哪些是垃圾賬號(hào)和惡意行為,實(shí)在是做不到?。?/p>

前不久,F(xiàn)acebook一口氣刪除783個(gè)“水軍”帳號(hào),原因是存在虛假宣傳和輿論攻擊行為。其中356個(gè)Facebook帳戶和162個(gè)Instagram帳戶,早在2010年就開始在網(wǎng)絡(luò)任性活動(dòng)了。但由于他們很容易偽裝自己,導(dǎo)致系統(tǒng)根本無(wú)法自動(dòng)清理,最后還是靠手動(dòng)審查才發(fā)現(xiàn)了蛛絲馬跡。

看來(lái),想要讓機(jī)器像人一樣精準(zhǔn)識(shí)別網(wǎng)絡(luò)行為背后的意圖,以當(dāng)前NLP的閱讀理解能力,真的是想太多。

也因此,去年一篇利用人類眼動(dòng)來(lái)提升NLP模型性能的論文,一經(jīng)問(wèn)世,就迅速受到關(guān)注,為與網(wǎng)絡(luò)暴力斗智斗勇的程序員們打開了一扇新的技術(shù)之窗。

我們不妨就以這個(gè)最新研究成果為契機(jī),來(lái)猜想一下,技術(shù)如何才能打贏這場(chǎng)爭(zhēng)奪網(wǎng)絡(luò)話語(yǔ)權(quán)的無(wú)聲戰(zhàn)爭(zhēng)。

機(jī)器之殤:遠(yuǎn)不夠完美的RNN

在了解這個(gè)新的RNN模型做了哪些創(chuàng)新之前,我想有必要先簡(jiǎn)單介紹一下,NLP的世界里一般是如何使用注意力機(jī)制來(lái)完成任務(wù)的。

以最為常用的序列對(duì)序列(sequence to sequence)模型為例,比如說(shuō)我們要將中文翻譯成英文,如果我們擁有大量的雙語(yǔ)語(yǔ)料,就可以得到兩個(gè)知識(shí)豐富而結(jié)構(gòu)相似的編碼和解碼網(wǎng)絡(luò),從而訓(xùn)練出很有效的模型,來(lái)實(shí)現(xiàn)很好的機(jī)器翻譯效果。

但序列模型對(duì)機(jī)器的記憶力提出了比較殘酷的要求,需要先背誦全文再翻譯,如果是長(zhǎng)篇大論,機(jī)器就放飛自我了。

于是,注意力模型出現(xiàn)了。

試想一下,人類是如何翻譯的(此處致敬高考英語(yǔ)老師):先完整地讀完整個(gè)句子,結(jié)合上下文理解大概含義,然后對(duì)關(guān)鍵單詞和短語(yǔ)重點(diǎn)思索,再著手進(jìn)行翻譯。

而注意力模型試圖模仿的正是人類這種理解能力。它被設(shè)計(jì)成一個(gè)雙向的RNN網(wǎng)絡(luò),每個(gè)單元由LSTM或GRU組成,能夠向前和向后獲取信息,通俗點(diǎn)說(shuō)就是“聯(lián)系上下文”。

每次翻譯時(shí),注意力模型會(huì)根據(jù)待翻譯部分以及上下文,給予不一樣的注意力(權(quán)重參數(shù)),接著循序漸進(jìn)地翻譯出整段話。

注意力機(jī)制解決了傳統(tǒng)神經(jīng)機(jī)器翻譯中基于短語(yǔ)的生搬硬套,但并不意味著毫無(wú)缺陷。

它的不完美主要體現(xiàn)在三個(gè)方面:

1.需要大規(guī)模標(biāo)注數(shù)據(jù)。

原始RNN在解碼過(guò)程中,機(jī)器的焦點(diǎn)是分散在整個(gè)序列當(dāng)中的,需要先對(duì)序列上的每個(gè)元素進(jìn)行標(biāo)記,再進(jìn)行對(duì)齊操作。里面就包含了詞性標(biāo)注、CHUNK識(shí)別、句法分析、語(yǔ)義角色識(shí)別,甚至包括關(guān)鍵詞抽取等很多子任務(wù),顯然不是一個(gè)小工程。

2.增加額外運(yùn)算負(fù)擔(dān)。

人類在閱讀時(shí),并不關(guān)注所有的字,往往會(huì)自動(dòng)忽略掉不想關(guān)注或無(wú)意義的部分,只重點(diǎn)處理關(guān)注需要注意的那一部分。比如“Courage is like a muscle”中,“Courage”和“muscle”就會(huì)讓人多看兩眼。這樣做不僅能夠降低任務(wù)的復(fù)雜度,還能避免腦負(fù)荷過(guò)載。

而NLP的注意力機(jī)制雖然是在模仿人類行為,但機(jī)器必須對(duì)所有對(duì)象進(jìn)行處理和計(jì)算,還要用一個(gè)矩陣去存儲(chǔ)不同字節(jié)的權(quán)重,這些都增加了額外的運(yùn)算壓力和成本。

3.容易出現(xiàn)歸納偏置。

通俗點(diǎn)說(shuō),就是機(jī)器在遇到某種沒有見過(guò)的東西時(shí),會(huì)傾向于給出一個(gè)簡(jiǎn)單的預(yù)測(cè)或判斷,以此來(lái)決定輸出規(guī)則。

比如通過(guò)分析,它認(rèn)為出現(xiàn)“but”“不”等單詞,就說(shuō)明對(duì)方會(huì)開始釋放負(fù)面甚至攻擊性的語(yǔ)言了。但要是遇上“我跳起來(lái)反手就是一個(gè)么么噠”之類玩梗的騷操作,可能就會(huì)誤傷友軍。

了解了注意力機(jī)制的基本工作方式,我們就趕緊來(lái)看看這項(xiàng)新的研究成果,究竟是憑什么驚艷了整個(gè)學(xué)界吧。

NLP希望之鑰,還掌握在人類手中

一句話概括,就是論文作者M(jìn)aria Barrett和她的同事們,將人類在閱讀時(shí)的眼部動(dòng)作引入了RNN網(wǎng)絡(luò)的訓(xùn)練中,使其能夠在標(biāo)注型文本和人類注意力信息之間來(lái)回切換,以此獲得性能更好的循環(huán)神經(jīng)網(wǎng)絡(luò)。

具體是怎么實(shí)現(xiàn)的呢?

首先,研究人員利用兩個(gè)公開的眼動(dòng)追蹤語(yǔ)料庫(kù):Dundee Corpus和ZuCo Corpus來(lái)研究人類的注意力機(jī)制。

其中,Dundee Corpus包含了20篇報(bào)紙文章,共2368個(gè)句子,閱讀屏幕可以感知眼部動(dòng)作。ZuCo Corpus則包含了1000個(gè)單獨(dú)的英語(yǔ)句子,有一部分來(lái)自斯坦福情感樹庫(kù),通過(guò)紅外染色儀來(lái)記錄眼睛運(yùn)動(dòng)和面部情緒分析。

根據(jù)這些人類閱讀語(yǔ)料時(shí)的眼睛動(dòng)作追蹤數(shù)據(jù)(比如注視持續(xù)時(shí)間MEAN FIX DUR),得到了一個(gè)“人類注意力”的數(shù)據(jù)集。

第二步,使用人類眼動(dòng)數(shù)據(jù)集與標(biāo)注好的序列數(shù)據(jù)集,來(lái)共同訓(xùn)練RNN模型。

從兩個(gè)數(shù)據(jù)集中隨機(jī)選擇一個(gè)數(shù)據(jù),讓機(jī)器判斷屬于哪一個(gè)數(shù)據(jù)集。

如果屬于序列數(shù)據(jù)集,則進(jìn)一步判斷該句子的類別,計(jì)算并預(yù)測(cè)標(biāo)簽blabla;如果屬于人類眼動(dòng)數(shù)據(jù)集,則計(jì)算每個(gè)單詞的權(quán)重(即attention值),再進(jìn)行歸一化(最小平方差)處理。

那么,經(jīng)受了人機(jī)雙重挑戰(zhàn)的新RNN網(wǎng)絡(luò)效果如何呢?接下來(lái),研究人員通過(guò)三個(gè)任務(wù)對(duì)其性能進(jìn)行了測(cè)試:

任務(wù)一:句子情感分析。使用新RNN來(lái)檢測(cè)機(jī)器是否能識(shí)別出數(shù)據(jù)集(SEMEVAL TWITTER POS | NEG)中的負(fù)面句子和非負(fù)面句子;

任務(wù)二:語(yǔ)法錯(cuò)誤檢測(cè)。讓新的RNN閱讀經(jīng)專家注釋的英語(yǔ)論文(數(shù)據(jù)集FCF),并找出其中的語(yǔ)法錯(cuò)誤,與正確的句子區(qū)分開;

任務(wù)三:暴力語(yǔ)言檢測(cè)。研究人員安排了20940條設(shè)計(jì)性別歧視和種族主義等辱罵型語(yǔ)言的推特(數(shù)據(jù)集Waseem和Hovy),來(lái)對(duì)新的RNN進(jìn)行測(cè)試。

最終的實(shí)驗(yàn)結(jié)果顯示,加入了人類注意力訓(xùn)練之后的RNN,找重點(diǎn)的能力,以及預(yù)測(cè)的精準(zhǔn)程度,要遠(yuǎn)高于原本的序列模型。

這項(xiàng)研究成果很快就引起了反響,并獲得了NLP頂會(huì)CoNLL 2018年度最佳研究論文特別獎(jiǎng)。

那么,接下來(lái)請(qǐng)回答一道送分題:這項(xiàng)成果有何特別之處?

RNN的一小步,NLP的一大步

將人類注意力引入機(jī)器學(xué)習(xí)算法的訓(xùn)練,究竟有何意義?我來(lái)?yè)尨鹨幌拢?/p>

首先,降低了對(duì)序列分類標(biāo)注語(yǔ)料的依賴,讓NLP模型的訓(xùn)練有了更多可能性。

讓機(jī)器學(xué)習(xí)注意力函數(shù)需要非常大規(guī)模的數(shù)據(jù),結(jié)果就是讓開發(fā)者不得不陷入爭(zhēng)奪計(jì)算資源的“金錢戰(zhàn)爭(zhēng)”。該項(xiàng)研究為 NLP 中的許多注意力函數(shù)提供一個(gè)不錯(cuò)的歸納偏置性能,同時(shí)還不要求目標(biāo)任務(wù)數(shù)據(jù)帶有眼睛跟蹤信息,直接減少了數(shù)據(jù)需求量。

其次,是從語(yǔ)義到推理的性能跨越。

傳統(tǒng)的序列到序列模型和RNN網(wǎng)絡(luò),只能解決語(yǔ)義理解問(wèn)題,而該論文證明,使用人眼注意力來(lái)規(guī)范機(jī)器的注意力功能,可以讓一系列NLP任務(wù)實(shí)現(xiàn)顯著改善,甚至觸及了常識(shí)、推理等認(rèn)知能力。

機(jī)器能從“凝視”信息中獲取對(duì)多重表達(dá)、情緒分析的精準(zhǔn)判斷,某種程度上已經(jīng)學(xué)會(huì)了模擬人類的注意力。

以后機(jī)器也許就能夠輕松挑戰(zhàn)女朋友說(shuō)“我沒有不高興”這樣雙重否定表否定的高難度閱讀理解了。是不是很期待呢?

而最重要也最接地氣的,則是新模型帶來(lái)的網(wǎng)絡(luò)沖浪體驗(yàn)革命了。

研究團(tuán)隊(duì)認(rèn)為,該模型很快就能夠在一些比較關(guān)鍵的實(shí)際應(yīng)用中,判斷網(wǎng)絡(luò)文本的犯罪意圖、評(píng)論信息和情感傾向。

比如通過(guò)帖子或推文的訓(xùn)練,幫助微博/推特/臉書等社交媒體精準(zhǔn)識(shí)別出惡意評(píng)論的杠精和廢話連篇的水軍,并予以精準(zhǔn)過(guò)濾和清楚,營(yíng)造一個(gè)更美好的社區(qū)氛圍;

再比如通過(guò)淘寶/亞馬遜/Yelp,以及各種應(yīng)用商店中不同類別的反饋,對(duì)特殊屬性(衣服的尺寸、使用感受)和商品評(píng)價(jià)的不同反饋進(jìn)行分類和提取,幫助商家優(yōu)化經(jīng)營(yíng),并精準(zhǔn)打擊刷單等欺騙行為。

除此之外,該模型還能根據(jù)意圖對(duì)文本進(jìn)行分類,比如在遇到緊急問(wèn)題或檢測(cè)到請(qǐng)求幫助的需求(發(fā)出帶有自殺或發(fā)社會(huì)傾向的推文或聊天記錄)時(shí),能夠及時(shí)通知執(zhí)法人員,從而避免災(zāi)難性事件的發(fā)生。

這樣一對(duì)比,是不是感覺一個(gè)“機(jī)器懂我、天下無(wú)杠”的美麗新世界在向你招手呢?

再說(shuō)一點(diǎn)

由此延展到整個(gè)AI領(lǐng)域,或許可以發(fā)現(xiàn),人類和智能機(jī)器,本質(zhì)上在做著同樣的事情,只不過(guò)AI的功能是將其抽象化并用新的邏輯演繹出來(lái),然后人類給它投喂數(shù)據(jù),它消化之后返還給我們或理想或智障的結(jié)果……

而機(jī)器的內(nèi)化過(guò)程,一直遭遇著黑箱性的詬病,越來(lái)越龐大的神經(jīng)網(wǎng)絡(luò)層和數(shù)據(jù)需求量,也已經(jīng)讓研究者不堪重負(fù)。

前路在哪里?或許那張大家快看吐了的人類與機(jī)器人指尖對(duì)指尖的圖,正印證著機(jī)器學(xué)習(xí)的未來(lái),那就是:人機(jī)協(xié)同。

越來(lái)越多的研究者開始將人類推理和決策行為引入到機(jī)器訓(xùn)練之中,比如MIT和微軟在訓(xùn)練無(wú)人駕駛汽車時(shí),開始讓它們從人類反饋中找到認(rèn)知盲點(diǎn),以此應(yīng)對(duì)那些模糊決策情境。

DeepMind和OpenAI讓沒有技術(shù)經(jīng)驗(yàn)的人類控制員來(lái)選擇預(yù)期目標(biāo),并以此訓(xùn)練激勵(lì)預(yù)期側(cè),讓智能體根據(jù)人類的偏好改進(jìn)自己的行為,最終完成復(fù)雜的任務(wù)目標(biāo),比如后空翻;基于人眼注意力的新RNN網(wǎng)絡(luò)也是如此。

這種改變,可以被歸結(jié)為深度學(xué)習(xí)的階段性技術(shù)瓶頸,只能靠向人類借力來(lái)攻破。

但從某種意義上來(lái)說(shuō),與人類攜手,將人類的抽象能力與計(jì)算機(jī)系統(tǒng)邏輯進(jìn)行更高耦合度的融合,可能才是機(jī)器智能更現(xiàn)實(shí)也更有效的解決方案。

肯尼迪的那句話放在AI的世界里依然無(wú)比適合——不要問(wèn)機(jī)器為你做了什么,要問(wèn)你能為機(jī)器做些什么。相比于等待機(jī)器自我迭代到成熟的那一天來(lái)服務(wù)我們,參與“智能養(yǎng)成游戲”不是更令人期待嗎?

好了不說(shuō)了,我要背上鍵盤去和杠精們大戰(zhàn)三百回合,為機(jī)器貢獻(xiàn)垃圾數(shù)據(jù)咯。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-03-18
點(diǎn)擊就看新NLP模型如何穩(wěn)準(zhǔn)狠狙擊杠精
以最為常用的序列對(duì)序列(sequencetosequence)模型為例,比如說(shuō)我們要將中文翻譯成英文,如果我們擁有大量的雙語(yǔ)語(yǔ)料,就可以得到兩個(gè)知識(shí)豐富而結(jié)構(gòu)相似的編碼和解碼網(wǎng)絡(luò),從而訓(xùn)練出很有效

長(zhǎng)按掃碼 閱讀全文