123,123,123

原標(biāo)題：百度又一個(gè)黑科技：AI內(nèi)容風(fēng)控了解一下？

2018年上半年，內(nèi)容領(lǐng)域的違規(guī)監(jiān)管收緊，很多企業(yè)都如履薄冰。

今日頭條、抖音、快手等明星企業(yè)都因涉嫌推送低俗色情內(nèi)容開始整改，關(guān)停了一些流量巨大的板塊和產(chǎn)品。各家也紛紛開始加大審核員招聘，動(dòng)輒就要4000、5000人的規(guī)模。

對(duì)于內(nèi)容產(chǎn)業(yè)來(lái)說(shuō)，機(jī)器學(xué)習(xí)算法的極高分發(fā)效率為其打開了一扇全新的大門，這讓信息流、短視頻等發(fā)展如火如荼。但當(dāng)海量?jī)?nèi)容出現(xiàn)，內(nèi)容上的不可控已經(jīng)成為內(nèi)容產(chǎn)業(yè)當(dāng)前最大的問(wèn)題。

原因很簡(jiǎn)單。

全新分發(fā)邏輯下的誕生海量?jī)?nèi)容，人工審核的效率又非常低，風(fēng)險(xiǎn)在所難免，一旦監(jiān)管收緊，風(fēng)險(xiǎn)劇增?？梢哉f(shuō)，內(nèi)容產(chǎn)業(yè)就像握著半個(gè)羅盤，機(jī)器學(xué)習(xí)帶來(lái)的高分發(fā)效率讓他們不斷靠近目的地，可對(duì)于內(nèi)容的不可控又讓他們不斷偏離開了航線。

違規(guī)內(nèi)容收緊，“AI內(nèi)容風(fēng)控”應(yīng)運(yùn)而生

不過(guò)這種現(xiàn)狀，不一定非要靠成千上萬(wàn)的人工來(lái)做。

最近，百度提出了“AI內(nèi)容風(fēng)控”概念。說(shuō)起風(fēng)控，通常大家會(huì)條件反射地聯(lián)想到金融行業(yè)。實(shí)際上金融風(fēng)控和內(nèi)容風(fēng)控的確有異曲同工之處，風(fēng)控能力差時(shí)，“老賴”產(chǎn)生的壞賬會(huì)破壞一個(gè)金融服務(wù)上的整體收益，就像內(nèi)容創(chuàng)作者鉆空子產(chǎn)生的低質(zhì)量?jī)?nèi)容會(huì)破壞整個(gè)內(nèi)容分發(fā)平臺(tái)的聲譽(yù)和用戶體驗(yàn)一樣。而金融服務(wù)的風(fēng)控過(guò)去耗費(fèi)大量人力，今天卻可以依靠人工智能建立模型來(lái)實(shí)現(xiàn)，在這一點(diǎn)上，內(nèi)容風(fēng)控也是一樣。

而百度在內(nèi)容分發(fā)方面一直是集大成者，在內(nèi)容產(chǎn)業(yè)火熱之前，百度以搜索引擎為立足點(diǎn)、以百度貼吧、空間等產(chǎn)品為沉淀，已經(jīng)開始和大量圖片、文字和視頻打交道。何況不得不說(shuō)一句，相比那些品類化的內(nèi)容平臺(tái)，百度產(chǎn)品定位是最大眾化的，自然也會(huì)比其他內(nèi)容平臺(tái)更容易遇到不當(dāng)內(nèi)容。

不管從企業(yè)自身的發(fā)展來(lái)看，還是從行業(yè)整體走向來(lái)看，AI內(nèi)容風(fēng)控都是一條必經(jīng)之路。

針對(duì)這一問(wèn)題，我們聯(lián)系到百度內(nèi)容風(fēng)控專家，專家告訴我們，百度內(nèi)容風(fēng)控的范疇分為三部分，包含了違法違規(guī)、垃圾信息、內(nèi)容質(zhì)量差等情況，同時(shí)包括了圖像、富媒體、文字等多種內(nèi)容形式。

而想要實(shí)現(xiàn)對(duì)多種內(nèi)容的風(fēng)控，自然離不開豐富的AI技術(shù)構(gòu)件。粗略的說(shuō)，在整個(gè)內(nèi)容風(fēng)控體系上，百度至少應(yīng)用上了圖像識(shí)別、富媒體識(shí)別、NLP、分類/聚類、關(guān)聯(lián)挖掘、機(jī)器學(xué)習(xí)方案六大類算法能力。

例如當(dāng)內(nèi)容創(chuàng)作者發(fā)布色情圖片時(shí)，可以通過(guò)分類器發(fā)現(xiàn)圖片的不當(dāng)性。而如果發(fā)布的圖片中含有商標(biāo)、水印等等侵權(quán)問(wèn)題，可以利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行命令實(shí)體識(shí)別。同時(shí)內(nèi)容分發(fā)平臺(tái)上還會(huì)經(jīng)常出現(xiàn)大量注冊(cè)賬號(hào)，大量發(fā)布不當(dāng)內(nèi)容的行為，這時(shí)百度的內(nèi)容風(fēng)控體系就可以通過(guò)構(gòu)建圖模型挖掘這些賬戶之間的關(guān)聯(lián)，將其“一網(wǎng)打盡”。

在2017年全年，百度處置的有害信息高達(dá)451.2億余條，其中99%的信息在上線前就已經(jīng)被自動(dòng)攔截，大大減少了人工勞動(dòng)。有了這一AI風(fēng)控體系，就好像掌握了羅盤的另一半，可以更加高效地回歸航線，減少因?yàn)閮?nèi)容審核造成航行失控的可能性。

AI平衡術(shù)

其實(shí)用AI進(jìn)行內(nèi)容審核對(duì)于我們來(lái)說(shuō)并不陌生，可在實(shí)際應(yīng)用中，我們遇到的情況大多都是正常內(nèi)容被莫名其妙地下線或限流，連人工編輯自己都不知道原因是什么。

可有害信息僅需要很簡(jiǎn)單的處理，例如（奧…&夜￥美#！女！&）這樣的形式，就能出現(xiàn)在我們眼前。這是因?yàn)楹芏鄡?nèi)容分發(fā)平臺(tái)應(yīng)用的AI審核機(jī)制過(guò)于粗放，沒有能力應(yīng)對(duì)海量?jī)?nèi)容，更沒有能力應(yīng)對(duì)越來(lái)越豐富的內(nèi)容形式。

百度內(nèi)容風(fēng)控專家告訴我們，在這一系列的技術(shù)研發(fā)中，百度注重的是解決那些以往的AI審核機(jī)制無(wú)法解決的問(wèn)題。

例如同一內(nèi)容的跨場(chǎng)景判斷，就是困擾平臺(tái)已久的問(wèn)題。打個(gè)比方說(shuō)，一張美麗的少女照片如果出現(xiàn)在時(shí)尚、美妝類的內(nèi)容場(chǎng)景中就沒有問(wèn)題。但如果搭配上“溫柔少婦、青春少女”、“按摩保健、同城交友”這樣的上下文，相信大家都能明白這是在暗示些什么了。

在百度內(nèi)容風(fēng)控的解決方案中，為了在不同場(chǎng)景中尋找共性，引入了包含圖片+文字的跨模態(tài)深度學(xué)習(xí)模型，以便可以對(duì)內(nèi)容進(jìn)行綜合識(shí)別。同時(shí)為了保證模型在不同內(nèi)容形式中重復(fù)可用，百度采用了遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本訓(xùn)練，從而增加模型的通用可遷移。

另一大難題，則是內(nèi)容審核之后的處理機(jī)制。作為創(chuàng)作者，有時(shí)用了一張侵權(quán)圖片，或者是因?yàn)槭终`打了一些病句、錯(cuò)別字、敏感詞等等，只是無(wú)心之失。就如同有時(shí)忘記還信用卡一樣，并非刻意逾期。但有些人卻會(huì)故意不斷發(fā)布不當(dāng)內(nèi)容，甚至注冊(cè)多個(gè)小號(hào)以逃避審核封號(hào)。

應(yīng)對(duì)這種情況，百度在AI內(nèi)容風(fēng)控上提出了分階段的處理手段。如果只是低危風(fēng)險(xiǎn)的無(wú)心之失，風(fēng)控系統(tǒng)通常是以內(nèi)容線下、自動(dòng)下線等等方式進(jìn)行處理。但如果進(jìn)一步發(fā)展到中、高危風(fēng)險(xiǎn)，就會(huì)對(duì)賬戶進(jìn)行整改、甚至下線作為懲罰。

解決了這些問(wèn)題后，百度正在讓AI在內(nèi)容風(fēng)控上發(fā)揮更大的效用，使其更加接近人類編輯。

全球大勢(shì)之下，AI內(nèi)容風(fēng)控正在成為必備品

從全球內(nèi)容產(chǎn)業(yè)的發(fā)展來(lái)看，內(nèi)容風(fēng)控機(jī)制的發(fā)展僅僅是內(nèi)容產(chǎn)業(yè)整體進(jìn)化重要一步。內(nèi)容風(fēng)控可以通過(guò)減少人工審核來(lái)提升內(nèi)容分發(fā)的商業(yè)效率，讓內(nèi)容產(chǎn)業(yè)重量變得更“輕”——輕人力、輕成本、輕流程，讓AI來(lái)解決更多問(wèn)題。

在海外， Facebook這類與內(nèi)容打交道的企業(yè)每年都耗費(fèi)大量技術(shù)投入在解決假新聞和低俗內(nèi)容。谷歌也深受其害，曾經(jīng)因在平臺(tái)上發(fā)現(xiàn)涉及到恐怖主義的廣告而陷入信任危機(jī)。目前谷歌正在利用人力對(duì)視頻數(shù)據(jù)進(jìn)行標(biāo)注，從而訓(xùn)練出自動(dòng)識(shí)別惡意視頻的AI模型。

從百度內(nèi)容風(fēng)控展示出的六大體系來(lái)看，和專注文字、圖片審核的Facebook以及專注建立視頻識(shí)別模型的谷歌不同，能應(yīng)對(duì)跨場(chǎng)景和富媒體識(shí)別的百度在技術(shù)完成度上已經(jīng)走在了世界前列。

同時(shí)，這樣的AI內(nèi)容風(fēng)控體系，也可以在其他領(lǐng)域發(fā)揮作用。比如虛假信息泛濫的醫(yī)療廣告，一直是違規(guī)內(nèi)容的重災(zāi)區(qū)，通過(guò)AI風(fēng)控體系，百度2017年打擊虛假醫(yī)療廣告6000萬(wàn)條，在醫(yī)療廣告整治方面，百度風(fēng)控系統(tǒng)全年屏蔽了近23萬(wàn)個(gè)非法醫(yī)療類詞匯，大大減少了非法醫(yī)療保健廣告的危害。

而且我們也能夠發(fā)現(xiàn)，隨著各種新技術(shù)的發(fā)展，出產(chǎn)低質(zhì)量?jī)?nèi)容的成本也越來(lái)越低，甚至可以通過(guò)幾張照片、一段音頻就能為造出惟妙惟肖的虛假視頻。

在這樣的前提下，利用AI進(jìn)行內(nèi)容風(fēng)控的重要性只會(huì)不斷提高，我們未來(lái)需要應(yīng)對(duì)的不僅僅是不當(dāng)內(nèi)容和低質(zhì)量?jī)?nèi)容，很可能還會(huì)有人類都難以分辨的虛假內(nèi)容。這樣看來(lái)，AI內(nèi)容風(fēng)控不僅僅是一項(xiàng)增益技術(shù)，而是駛向內(nèi)容產(chǎn)業(yè)金銀島保駕護(hù)航的必由之路。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

百度又一個(gè)黑科技：AI內(nèi)容風(fēng)控了解一下？

下一篇