123,123

隨著互聯(lián)網(wǎng)的飛速發(fā)展，我們進入了一個信息爆炸的時代。圖文、視頻、聊天、直播等互動內(nèi)容已經(jīng)成為人們?nèi)粘９ぷ?、生活不可或缺的部分。然而，在這些日益增長的內(nèi)容中卻充斥著各種不良言論、垃圾廣告、涉黃等網(wǎng)絡(luò)垃圾。這些流竄在互聯(lián)網(wǎng)中的垃圾內(nèi)容，不僅極大程度影響了用戶體驗，也讓不少企業(yè)倍感困擾。

面對日益復(fù)雜的安全形勢，企業(yè)該如何“祛污”，守護內(nèi)容安全?在11月6日至7日舉辦的首屆騰訊 Techo 開發(fā)者大會云安全技術(shù)與應(yīng)用專場上，騰訊安全業(yè)務(wù)安全總監(jiān)楊紅圍繞《新時代的內(nèi)容風控實踐與創(chuàng)新》，針對文本、圖片、音頻等載體的內(nèi)容安全，從現(xiàn)狀分析、算法選擇、對抗過程及實踐效果等方面著手，全景呈現(xiàn)了騰訊安全天御在守護內(nèi)容安全上的實踐經(jīng)驗。

色情AI識別模型，毫秒級識別不良音頻

音頻是現(xiàn)階段網(wǎng)絡(luò)上發(fā)展最快的信息載體。當下，游戲內(nèi)語音交流已成常態(tài)，無論是手機游戲中的音頻傳輸，還是通過語音及時通訊工具傳輸?shù)囊纛l內(nèi)容，都是音頻垃圾內(nèi)容的災(zāi)區(qū)，但音頻內(nèi)容時間短、信道復(fù)雜，難以識別，成為內(nèi)容安全監(jiān)管中的難點。

在海量的音頻識別中，“鑒黃”無疑挑戰(zhàn)巨大。相較標準AV音頻的識別，色情音頻在內(nèi)容、時長和信道維度都有其特點，比如存在靜音、噪聲干擾大，存在較大的背景音樂，而且時間較短，編碼格式多樣和采樣率不統(tǒng)一等特點，這都為識別造成一定困難。針對這一問題，騰訊安全基于AI設(shè)計了一套色情音頻識別流程，通過相應(yīng)技術(shù)去掉靜音內(nèi)容，對音頻進行分段識別，最后根據(jù)每個片段的得分和時長匯總得到整條語音內(nèi)容的識別結(jié)果。針對音頻樣本搜集與標注的難點，騰訊安全天御大量綜合網(wǎng)友舉報，通過多類型、多標簽標注，已實現(xiàn)音頻鑒黃的準確率達到82%、召回率達到90%以上。

而針對網(wǎng)絡(luò)謾罵，騰訊安全天御構(gòu)建了高性能多語種語音關(guān)鍵詞系統(tǒng)，通過特征提取、聲學建模和解碼等技術(shù)加持，可毫秒級識別不良音頻。

線上打擊+離線主動收集標注，惡意文本無處藏身

網(wǎng)絡(luò)文本是網(wǎng)絡(luò)中最大的信息載體，幾乎所有互聯(lián)網(wǎng)平臺都面臨文本安全問題。網(wǎng)絡(luò)文本類垃圾消息通常含有特殊符號、變異字、多音字、形近字干擾，而傳統(tǒng)的文本策略抗干擾能力弱，常常會導(dǎo)致誤殺。

騰訊安全天御對此專門建立了一套垃圾文本識別模型——TextCNN文本分類算法，通過在線實時打擊和離線主動收集標注讓惡意文本無處藏身。在線模型訓練中，補充了拼音和結(jié)構(gòu)信息用于訓練，對訓練數(shù)據(jù)添同音字和拆字，提升抗干擾性。對于線上模型不能覆蓋的新類型惡意垃圾，騰訊安全天御設(shè)計了離線樣本主動收集流程，讓學習算法主動提出要對哪些數(shù)據(jù)進行標注，增量訓練分類模型進行實時打擊。

在這套算法的支撐下，騰訊安全天御提升了至少50%以上的識別覆蓋范圍，準確率和召回率分別達到90%和80%以上。

多標簽學習+細粒度識別，掃蕩網(wǎng)圖黑暗角落

圖片是僅次于文本的第二大信息載體，其面臨的識別挑戰(zhàn)比文本更大，騰訊安全天御針對性地提出了多標簽的圖像識別算法，支持多標簽輸出、多種標簽預(yù)測，這意味著在一定顆粒度下，給圖片配上“身份證”以便識別。

騰訊安全天御豐富的數(shù)據(jù)積累是這套算法得以運行的關(guān)鍵。目前騰訊安全天御積累了各種涉黃圖片數(shù)據(jù)500多萬，每張圖片有5個主要標簽和10個細粒度標簽。在標簽識別中，不同的標簽數(shù)量差距大、樣本不平衡，各維度標簽響應(yīng)不同、統(tǒng)一閾值召回低的情況普遍存在，這也成為圖片識別中的難點，騰訊安全天御采取標簽級動態(tài)采樣，使低頻標簽召回率提升15%;對維度標簽問題，則使用驗證集進行閾值搜索，設(shè)置多閾值。

與此同時，騰訊安全天御自研的logo元素識別算法，能夠做到做到不同位置、尺度、分辨率、透視視角、遮擋干擾情況下具備良好的識別效果，準確率和召回率分別達到90%以上。

企業(yè)在接入騰訊安全天御內(nèi)容風控的能力上非常便捷。騰訊安全天御不僅提供API接口，還可以協(xié)同騰訊云等產(chǎn)品接入企業(yè)的內(nèi)容風控系統(tǒng)，幫助企業(yè)零開發(fā)、快速識別平臺中可能存在的違規(guī)內(nèi)容。

目前，騰訊安全天御的內(nèi)容風控通過騰訊云和微信小程序已服務(wù)超過5萬家開發(fā)者。行業(yè)滲透率達90%，審核效率提升20倍以上，業(yè)務(wù)健康程度達到99.89%，守護數(shù)萬家客戶的內(nèi)容安全，保障業(yè)務(wù)健康開展，守衛(wèi)互聯(lián)網(wǎng)的清朗綠色。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

企業(yè)如何守好“內(nèi)容安全”關(guān) ？騰訊安全天御給你錦囊妙計！

下一篇

企業(yè)如何守好“內(nèi)容安全”關(guān) ？騰訊安全天御給你錦囊妙計！

下一篇

企業(yè)如何守好“內(nèi)容安全”關(guān) ？騰訊安全天御給你錦囊妙計！