反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

最近看到一個(gè)消息,今日頭條對(duì)旗下的靈犬反低俗助手(以下簡(jiǎn)稱(chēng)“靈犬”)進(jìn)行了一次升級(jí),能夠同時(shí)支持對(duì)文本和圖片內(nèi)容的低俗信息檢測(cè)。

也就是說(shuō),無(wú)論是輸入文字還是上傳圖片,“靈犬”都能夠進(jìn)行低俗色情、暴力謾罵、標(biāo)題黨等相關(guān)低俗低質(zhì)元素的檢測(cè),并給出相應(yīng)的健康度鑒定結(jié)果。

無(wú)論是長(zhǎng)達(dá)數(shù)千字的文本,還是信息含量更加豐富的圖片,“靈犬”都能夠在短短幾秒鐘檢測(cè)完畢,并且據(jù)說(shuō)綜合準(zhǔn)確率高達(dá)85%以上。這只“狗子”不僅能識(shí)文斷字,更能獨(dú)自進(jìn)行看圖理解。

表面上,“靈犬”只是今日頭條旗下的一款小產(chǎn)品,以小程序的形態(tài)出現(xiàn)在今日頭條和微信里。內(nèi)容創(chuàng)作者們可以用它來(lái)檢測(cè)自己創(chuàng)作的內(nèi)容是否包含低俗信息,普通用戶(hù)也可以參與到“打擊低俗”這項(xiàng)看似復(fù)雜的工作中來(lái)。

事實(shí)上,“靈犬”在做的是一件全球內(nèi)容平臺(tái)共同在面對(duì)的難題:在內(nèi)容創(chuàng)作如井噴一樣增長(zhǎng)的環(huán)境下,如何在既追求內(nèi)容發(fā)布速度、又追求內(nèi)容質(zhì)量的前提下,平臺(tái)方如何做好內(nèi)容的審核管理工作?

“靈犬”初體驗(yàn):小程序如何反低俗?

在體驗(yàn)“靈犬”的檢測(cè)功能時(shí),我們發(fā)現(xiàn)這只“靈犬”可以用喜、怒、哀、樂(lè)等各個(gè)不同的表情來(lái)和你對(duì)視。

如果上傳的內(nèi)容不健康,“靈犬”肯定會(huì)怒氣沖沖地看著你,給你一份健康概率極低的鑒定結(jié)果;如果上傳的內(nèi)容是健康的,“靈犬”會(huì)”微贈(zèng)送微笑一枚,并給你一份健康概率正常甚至健康概率頗高的鑒定結(jié)果。

靈犬所認(rèn)為的“不健康”大致可以分為幾個(gè)方面: 低俗色情、暴力謾罵或者標(biāo)題黨。相反,不包含這些元素的信息,則有理由被“靈犬”認(rèn)定為健康的。

我們從網(wǎng)上找了一些網(wǎng)絡(luò)低俗話語(yǔ)和一些正常語(yǔ)句,準(zhǔn)備試試靈犬能否準(zhǔn)確地分辨出來(lái)。

我們首先測(cè)試了這一句”你說(shuō)的都是一堆廢話?我完全可以無(wú)視你那垃圾語(yǔ)言。“靈犬”的檢測(cè)結(jié)果顯示:健康概率為67%。

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

這句低俗語(yǔ)句帶有“廢話”和“垃圾”這兩個(gè)字眼,但在“靈犬”看來(lái),這類(lèi)語(yǔ)言其實(shí)并沒(méi)有到達(dá)底線,健康度仍處于可接受的范圍內(nèi)。

接著,我們選擇了“從前車(chē)馬很慢,書(shū)信很遠(yuǎn),一生只夠愛(ài)一個(gè)人”這句詩(shī)人木心的經(jīng)典情句,“靈犬”的鑒定結(jié)果為:健康概率達(dá)到了63%,成功通過(guò)健康度測(cè)試。

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

接著,我們決定找一些更敏感的文字來(lái)檢測(cè)。“想跟老子比速度?老子在渝北出了名的飆車(chē),老子看到紅燈從來(lái)都是闖,我一個(gè)電話就可以全改”,這是摘自最近社會(huì)新聞的一段話,我們輸入“靈犬”后,靈犬依舊表示“我覺(jué)得ok”。

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

借鑒前段時(shí)間“B站被曝低俗內(nèi)容泛濫”的事件,我們將一位家長(zhǎng)對(duì)B站的看法也進(jìn)行了檢測(cè)。當(dāng)“靈犬”接收到“該網(wǎng)站動(dòng)漫作品中竟充斥著大量令人擔(dān)憂(yōu)的低俗內(nèi)容,穿著暴露的少女,曖昧的語(yǔ)言和動(dòng)作,甚至涉及兄妹戀等亂倫內(nèi)容”這句更加直白的話后,他終于“變臉”了。一臉憤怒地表示,“嗅到了不好的味道,健康概率只有8%。”

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

這樣看來(lái),“靈犬”反低俗、反暴力謾罵、反標(biāo)題黨的能力并非虛傳,大體上還是能夠分辨清楚的。

文本識(shí)別之后,我們又重點(diǎn)測(cè)試了下新版“靈犬”新增的圖片識(shí)別功能,據(jù)說(shuō)運(yùn)用了更難的技術(shù),能夠識(shí)別圖片中的低俗色情、甚至暴力血腥的元素。

我們先測(cè)試的是一位微博紅人身著露臍裝和短褲的照片。圖片的低俗色情相對(duì)容易理解,果然,這張照片靈犬給出的健康概率只有22% ,并對(duì)圖片自動(dòng)打上了馬賽克。

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

露膚之外,圖片里的動(dòng)態(tài)行為是否能檢測(cè)到?我們將影視劇里吻戲場(chǎng)景放入了“靈犬”,這次“靈犬”給出的檢測(cè)結(jié)果為“成功通過(guò)健康度測(cè)試,健康概率為82%。”

反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?

Bert+深度學(xué)習(xí)雙重保險(xiǎn),讓“靈犬”搖身變“警犬”

語(yǔ)義識(shí)別也好、圖片識(shí)別也好,所涉及到的相關(guān)技術(shù)都是非常前沿的。那到底是什么技術(shù)附身在“靈犬”身上,讓“靈犬”有了這番本領(lǐng)?

據(jù)了解,在文本識(shí)別領(lǐng)域,新版“靈犬”同時(shí)應(yīng)用的是“Bert”和半監(jiān)督技術(shù),在不犧牲效果的情況下調(diào)整了模型結(jié)構(gòu),使得計(jì)算效率能達(dá)到實(shí)用水平;而在圖片識(shí)別領(lǐng)域,“靈犬”運(yùn)用了深度學(xué)習(xí)的解決方案,相當(dāng)于它在短時(shí)間內(nèi)學(xué)會(huì)了人類(lèi)需要上百年甚至更長(zhǎng)時(shí)間才能掌握的知識(shí)。這也就是我們現(xiàn)在所看到的,“靈犬”可以直接通過(guò)文字和圖片來(lái)檢測(cè)健康概率。

“Bert”其實(shí)是當(dāng)前世界最先進(jìn)的自然語(yǔ)言處理技術(shù),也可以說(shuō)是近年來(lái)自殘差網(wǎng)絡(luò)最優(yōu)突破性的一項(xiàng)技術(shù)。它被稱(chēng)為AI領(lǐng)域的明珠,可以接收100多種語(yǔ)言,處理閱讀理解、常識(shí)推理和機(jī)器翻譯等任務(wù)。

有一句這樣的流行語(yǔ),“Bert在手,天下我有”。目前,IBM、谷歌、微軟等世界頂尖公司都在運(yùn)用這項(xiàng)技術(shù),還有百度、阿里、騰訊、科大訊飛等國(guó)內(nèi)知名公司都在運(yùn)用這項(xiàng)技術(shù)。

不過(guò),可別以為這個(gè)技術(shù)離我們的日常生活很遙遠(yuǎn)。

“Bert”已經(jīng)應(yīng)用在了知識(shí)圖譜、情報(bào)檢測(cè)以及法律文書(shū)等方面。知識(shí)圖譜是人工智能研究中的核心問(wèn)題,它能夠賦予機(jī)器精準(zhǔn)查詢(xún)、理解與邏輯推理等能力。以《紅樓夢(mèng)》來(lái)說(shuō),我們可以利用Bert搭建起知識(shí)提取的機(jī)器學(xué)習(xí)模型提取紅樓夢(mèng)中的人物,并分析人物與人物之間的關(guān)系,這對(duì)我們快速了解小說(shuō)人物結(jié)構(gòu)非常有幫助。

在情報(bào)檢測(cè)方面,傳統(tǒng)的災(zāi)難信息檢測(cè)方法已經(jīng)不能滿(mǎn)足當(dāng)前迅速發(fā)展的互聯(lián)網(wǎng)環(huán)境。而基于Bert的機(jī)器學(xué)習(xí)模型可以迅速對(duì)情報(bào)信息中的災(zāi)難信息進(jìn)行處理,比如爆炸檢測(cè)、情感分析、危害評(píng)估等,這是人工無(wú)法達(dá)到的效果。

在法律文書(shū)方面,最近,清華大學(xué)人工智能學(xué)院發(fā)布了民事文書(shū)和刑事文書(shū)B(niǎo)ert,這對(duì)法律行業(yè)來(lái)說(shuō)是一大福音。對(duì)于法律行業(yè)來(lái)說(shuō),擁有高質(zhì)量的文本數(shù)據(jù)至關(guān)重要。因?yàn)榉晌臅?shū)、合同等文本的質(zhì)量高低與相關(guān)人員的利益密切關(guān)聯(lián)。民事文書(shū)和刑事文書(shū)B(niǎo)ert可以反復(fù)檢查文書(shū)內(nèi)容,確保文書(shū)質(zhì)量。

不同于文本識(shí)別,“靈犬”圖片識(shí)別的技術(shù)難點(diǎn)主要在于三方面:網(wǎng)絡(luò)上的低俗圖片占整體圖片內(nèi)容的比例較低;低俗種類(lèi)非常豐富和繁雜;低俗圖片的內(nèi)容特征千差萬(wàn)別。換句話來(lái)說(shuō),現(xiàn)在一百萬(wàn)張圖片里面可能只有兩三張圖片是低俗的,低俗種類(lèi)有幾十種甚至更多,比如性暗示、性器官、內(nèi)衣等,甚至還涉及不同的場(chǎng)景。

為了解決這個(gè)問(wèn)題,我們也了解到,今日頭條人工智能實(shí)驗(yàn)室分別在數(shù)據(jù)、模型、計(jì)算力等方面做了很多優(yōu)化。數(shù)據(jù)層面,“靈犬”累積了上千萬(wàn)級(jí)別的訓(xùn)練數(shù)據(jù)。模型層面,“靈犬”針對(duì)許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu),嘗試解決多尺寸、多尺度、小目標(biāo)等復(fù)雜問(wèn)題。計(jì)算力層面,“靈犬”利用分布式訓(xùn)練算法以及GPU訓(xùn)練集群,加速了模型的訓(xùn)練和調(diào)試。

技術(shù)與人工結(jié)合 助力反低俗

雖然,目前“靈犬”已經(jīng)能夠同時(shí)支持文本識(shí)別和圖片識(shí)別,但是無(wú)論“靈犬”也好,F(xiàn)acebook和 YouTube 也好,技術(shù)都還無(wú)法百分之百地解決問(wèn)題。比如一些存在歧義的句子和詞匯,就不能完全準(zhǔn)確地判斷出健康程度。而這些技術(shù)難以搞定的問(wèn)題,現(xiàn)階段還有賴(lài)于人工判斷。

機(jī)器通常是“就事論事”,考慮不到藝術(shù)作品的的人文價(jià)值。比如世界名畫(huà)中常常出現(xiàn)裸體女子,如果完全交由機(jī)器判斷,機(jī)器通過(guò)識(shí)別畫(huà)中人物的皮膚裸露面積,就會(huì)認(rèn)為這幅畫(huà)是色情低俗的;某些拍攝芭蕾舞的圖片,以機(jī)器的視角來(lái)看,其實(shí)類(lèi)似于裙底偷拍。

內(nèi)衣和內(nèi)衣模特出現(xiàn)在購(gòu)物平臺(tái)上,我們?nèi)祟?lèi)會(huì)默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺(tái)上,就可能被認(rèn)為有低俗嫌疑;正常的熱舞內(nèi)容,提供給成年人看,是符合常規(guī)標(biāo)準(zhǔn)的,但如果開(kāi)啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。

同一句話在不同的語(yǔ)境下面會(huì)有不同的意思。比如“菊花”、“我下面給你吃”在正常環(huán)境和網(wǎng)絡(luò)環(huán)境下就會(huì)出現(xiàn)不同的意思。還有“寒暄”、“安撫”、“諷刺”這種言語(yǔ)修辭行為,“靈犬”也難以準(zhǔn)確判斷健康概率。

針對(duì)這些低俗問(wèn)題評(píng)判的復(fù)雜性和不同判斷方式的局限性,看來(lái)靈犬還有很大的進(jìn)步空間。而就目前來(lái)說(shuō),想要應(yīng)對(duì)反低俗這項(xiàng)大挑戰(zhàn),一方面需要不斷進(jìn)化靈犬的技術(shù)模型,另一方面則是需要有效結(jié)合技術(shù)和人工判斷兩種方式,通過(guò)人機(jī)協(xié)作來(lái)共同完成。

不過(guò),值得注意的是,“靈犬”目前已經(jīng)建設(shè)了比較完善的模型迭代系統(tǒng)。通過(guò)“數(shù)據(jù)收集—數(shù)據(jù)標(biāo)注—數(shù)據(jù)清洗—模型訓(xùn)練—模型評(píng)估—badcase分析”這一套完整的流程,持續(xù)做優(yōu)化。

在信息大爆炸時(shí)代,低俗的定義相對(duì)籠統(tǒng),很難完全精確地定義出來(lái),反低俗這項(xiàng)工作對(duì)人類(lèi)來(lái)說(shuō)也不容易。“靈犬”的出現(xiàn),恰恰能彌補(bǔ)這一不足。在技術(shù)與人工的結(jié)合下,我們相信反低俗這條路會(huì)越走越遠(yuǎn)。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-08-08
反低俗是世界難題,今日頭條“靈犬”的嗅覺(jué)憑什么那么靈?
最近看到一個(gè)消息,今日頭條對(duì)旗下的靈犬反低俗助手(以下簡(jiǎn)稱(chēng)“靈犬”)進(jìn)行了一次升級(jí),能夠同時(shí)支持對(duì)文本和圖片內(nèi)容的低俗信息檢測(cè)。

長(zhǎng)按掃碼 閱讀全文