騰訊劉杉對話清華陶曉明,探索語義通信與視頻編解碼跨領(lǐng)域合作新方案

近日,在騰訊全球數(shù)字生態(tài)大會“Techo前沿技術(shù)論壇”上,騰訊杰出科學(xué)家、騰訊云副總裁、騰訊多媒體實驗室總經(jīng)理、騰訊視頻智能創(chuàng)作與內(nèi)容平臺部副總經(jīng)理劉杉博士,與清華大學(xué)電子工程系教授、2021年"科學(xué)探索獎"信息電子領(lǐng)域獲獎?wù)咛諘悦鹘淌诰凼?深入探討了語義通信和視頻編解碼領(lǐng)域的交叉合作。

劉杉博士一直致力于多媒體及相關(guān)領(lǐng)域的技術(shù)研究,包括信號與信息處理、音視頻與空間媒體數(shù)據(jù)壓縮、傳輸交互和智能化應(yīng)用等。她所帶領(lǐng)的騰訊多媒體實驗室,主要工作涉及兩大方面:前沿技術(shù)的探索和標(biāo)準(zhǔn)制定,和面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地。而陶曉明教授專注于廣域特定場景下的語義通信,通過將人腦視覺感知、認(rèn)知機(jī)理融入網(wǎng)絡(luò)傳輸通信過程,解決大容量多媒體業(yè)務(wù)對無線網(wǎng)絡(luò)帶寬需求的壓力。

兩位專家結(jié)合各自領(lǐng)域的專業(yè)知識,圍繞腦啟發(fā)的視頻質(zhì)量評價、語義賦能視頻編解碼以及語義通信與視頻編解碼跨領(lǐng)域合作這三大方面展開了深入的討論。

多媒體質(zhì)量評價新思路

劉杉博士提及騰訊多媒體實驗室面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地,從技術(shù)細(xì)分領(lǐng)域來看主要分為三大方向:媒體的壓縮傳輸,智慧融合媒體,以及互動沉浸式媒體。這些方向與當(dāng)前熱門的概念如AIGC、XR和元宇宙密切相關(guān)。她強(qiáng)調(diào)多媒體是一個系統(tǒng),包括信號處理、壓縮、傳輸、互動、渲染和建模等多個環(huán)節(jié),需要聯(lián)合優(yōu)化以實現(xiàn)最佳性能和用戶體驗。性能和用戶體驗需要高效的質(zhì)量評價體系量化評價,在傳統(tǒng)質(zhì)量評價體系之上發(fā)掘借鑒大腦的特征,來完成多媒體的質(zhì)量評價,是非常有意義的創(chuàng)新和探索。

陶曉明教授認(rèn)為,大腦有三個特征能夠與多媒體通信相關(guān)。第一是在感知,人腦對于QoE能夠有主觀和定性的判斷,能夠直接感知到好還是不好;第二是在認(rèn)知,人腦全局搜索和推理的能力,如果能引入通信的編解碼里面,一方面可以降低視頻編碼的復(fù)雜度,還能在傳輸過程中更好地保護(hù)上下文重要的語義信息;第三是在先驗知識方面,大腦能夠自動匹配之前接觸過的認(rèn)知,如果應(yīng)用到通信中,能夠降低一些特殊場景下對帶寬的需求。

深度學(xué)習(xí)、機(jī)器視覺

視頻編解碼,在如今5G甚至6G蓬勃發(fā)展的現(xiàn)在尤為重要,特別是在多媒體數(shù)據(jù)壓縮中。音頻、視頻、圖像以及新興的VR、高維度數(shù)據(jù)等,其數(shù)據(jù)量通常很大,需要大量存儲空間和傳輸帶寬。為了解決這個問題,視頻編解碼技術(shù)應(yīng)運而生,經(jīng)過幾代標(biāo)準(zhǔn)的發(fā)展,如H.264/AVC、H.265/HEVC、H.266/VVC等。深度學(xué)習(xí)在音頻信號壓縮方面已經(jīng)取得了一些進(jìn)展,但在視頻信號壓縮方面仍然具有挑戰(zhàn)性。

劉杉博士指出,在機(jī)器視覺、信息(如語音和圖像)處理等方面,深度學(xué)習(xí)和人工智能已經(jīng)在不少實際應(yīng)用中發(fā)揮作用,進(jìn)而推動在視頻編解碼中的使用探索。目前在視頻編解碼標(biāo)準(zhǔn)制定中,騰訊多媒體實驗室也發(fā)現(xiàn)了許多技術(shù)提案和趨勢,以適應(yīng)不同應(yīng)用和環(huán)境的需求。

陶曉明教授也表示,在鄉(xiāng)村、留守老人和兒童等特殊情境,可以通過引入腦科學(xué)的思想,使用腦電圖分析來提取人的主觀感知,以改善用戶體驗。此外,陶曉明教授還介紹了一種基于時空素描圖的編解碼方法,通過提取視頻的輪廓、語義和關(guān)系等特征,以減小數(shù)據(jù)量。因此在接收端,需要使用生成式機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法,能夠?qū)崿F(xiàn)在特殊長江下降低數(shù)據(jù)傳輸量,以滿足用戶的需求,生成最優(yōu)用戶體驗的視頻。

語義通信與視頻編解碼

劉杉博士認(rèn)為,質(zhì)量評價是無所不在的,包括目前騰訊多媒體工作室正在研究的3D空間視頻壓縮傳輸。她認(rèn)為這些領(lǐng)域尚未成熟,有很大的探索空間,從人腦反饋出發(fā)的研究方法十分具有潛力,未來也許會對多媒體編解碼標(biāo)準(zhǔn)的改進(jìn)起到推動作用。陶曉明補(bǔ)充說,在AR、VR和游戲等領(lǐng)域,腦電信號可以提供有關(guān)用戶體驗的寶貴信息,如交互性、感覺和延時等,這對語義通信的研究也是一個新的維度,期待未來能夠與騰訊多媒體實驗室一道,了解更多用戶需求。

騰訊多媒體實驗室自2018年初開始代表騰訊公司參與國際標(biāo)準(zhǔn)制定,迄今為止已有超過800項技術(shù)提案被多項國際標(biāo)準(zhǔn)采納并積累超過1500項已授權(quán)專利,數(shù)十人次在國際標(biāo)準(zhǔn)制定過程中擔(dān)任重要職務(wù),技術(shù)貢獻(xiàn)贏得國際標(biāo)準(zhǔn)組織和業(yè)界廣泛認(rèn)可。實驗室榮獲ISO/IEC 杰出貢獻(xiàn)獎、AVS產(chǎn)業(yè)技術(shù)創(chuàng)新單位獎、技術(shù)與工程艾美獎(Technical Emmy Award)、技術(shù)盧米埃獎(Technology Lumiere Award)、數(shù)博會領(lǐng)先科技成果獎、世界人工智能大會“鎮(zhèn)館之寶”。同時研發(fā)多媒體核心技術(shù)應(yīng)用于騰訊旗下多款產(chǎn)品,為億級用戶提供優(yōu)質(zhì)服務(wù)。從2018年開始投入包括VR在內(nèi)的沉浸式媒體XR技術(shù)研發(fā)和系統(tǒng)建設(shè)以及AIGC能力智能內(nèi)容生產(chǎn),在2019年首次將VR應(yīng)用于騰訊產(chǎn)品,之后又陸續(xù)為新華社、故宮、敦煌等合作項目以及騰訊WE大會、騰訊全球數(shù)字生態(tài)大會、東北虎國家公園提供技術(shù)支持,以多媒體實驗室技術(shù)為核心的“VR全景”、“自由視角”、“點云建模”、“點云壓縮”等通用解決方案已上架騰訊云官網(wǎng)。2019年,騰訊杰出科學(xué)家劉杉博士,向其所領(lǐng)導(dǎo)的多媒體實驗室團(tuán)隊提出展開面向“智能化內(nèi)容生產(chǎn)”技術(shù)研發(fā)的要求,并在此后的時間里帶領(lǐng)團(tuán)隊打造多項核心技術(shù)并逐步完善能力矩陣,應(yīng)用于多個內(nèi)容生產(chǎn)和創(chuàng)作的業(yè)務(wù)場景。2023年團(tuán)隊產(chǎn)品XMusic榮獲2023年世界人工智能大會“鎮(zhèn)館之寶”。未來多媒體實驗室將持續(xù)投入相關(guān)技術(shù)建設(shè),持續(xù)為教育、工業(yè)、醫(yī)療、文旅、地產(chǎn)家居、金融等to B產(chǎn)業(yè)場景的建設(shè)做底層技術(shù)投入。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )