近日,在騰訊全球數(shù)字生態(tài)大會(huì)“Techo前沿技術(shù)論壇”上,騰訊杰出科學(xué)家、騰訊云副總裁、騰訊多媒體實(shí)驗(yàn)室總經(jīng)理、騰訊視頻智能創(chuàng)作與內(nèi)容平臺(tái)部副總經(jīng)理劉杉博士,與清華大學(xué)電子工程系教授、2021年"科學(xué)探索獎(jiǎng)"信息電子領(lǐng)域獲獎(jiǎng)?wù)咛諘悦鹘淌诰凼?深入探討了語(yǔ)義通信和視頻編解碼領(lǐng)域的交叉合作。
劉杉博士一直致力于多媒體及相關(guān)領(lǐng)域的技術(shù)研究,包括信號(hào)與信息處理、音視頻與空間媒體數(shù)據(jù)壓縮、傳輸交互和智能化應(yīng)用等。她所帶領(lǐng)的騰訊多媒體實(shí)驗(yàn)室,主要工作涉及兩大方面:前沿技術(shù)的探索和標(biāo)準(zhǔn)制定,和面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地。而陶曉明教授專(zhuān)注于廣域特定場(chǎng)景下的語(yǔ)義通信,通過(guò)將人腦視覺(jué)感知、認(rèn)知機(jī)理融入網(wǎng)絡(luò)傳輸通信過(guò)程,解決大容量多媒體業(yè)務(wù)對(duì)無(wú)線(xiàn)網(wǎng)絡(luò)帶寬需求的壓力。
兩位專(zhuān)家結(jié)合各自領(lǐng)域的專(zhuān)業(yè)知識(shí),圍繞腦啟發(fā)的視頻質(zhì)量評(píng)價(jià)、語(yǔ)義賦能視頻編解碼以及語(yǔ)義通信與視頻編解碼跨領(lǐng)域合作這三大方面展開(kāi)了深入的討論。
多媒體質(zhì)量評(píng)價(jià)新思路
劉杉博士提及騰訊多媒體實(shí)驗(yàn)室面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地,從技術(shù)細(xì)分領(lǐng)域來(lái)看主要分為三大方向:媒體的壓縮傳輸,智慧融合媒體,以及互動(dòng)沉浸式媒體。這些方向與當(dāng)前熱門(mén)的概念如AIGC、XR和元宇宙密切相關(guān)。她強(qiáng)調(diào)多媒體是一個(gè)系統(tǒng),包括信號(hào)處理、壓縮、傳輸、互動(dòng)、渲染和建模等多個(gè)環(huán)節(jié),需要聯(lián)合優(yōu)化以實(shí)現(xiàn)最佳性能和用戶(hù)體驗(yàn)。性能和用戶(hù)體驗(yàn)需要高效的質(zhì)量評(píng)價(jià)體系量化評(píng)價(jià),在傳統(tǒng)質(zhì)量評(píng)價(jià)體系之上發(fā)掘借鑒大腦的特征,來(lái)完成多媒體的質(zhì)量評(píng)價(jià),是非常有意義的創(chuàng)新和探索。
陶曉明教授認(rèn)為,大腦有三個(gè)特征能夠與多媒體通信相關(guān)。第一是在感知,人腦對(duì)于QoE能夠有主觀和定性的判斷,能夠直接感知到好還是不好;第二是在認(rèn)知,人腦全局搜索和推理的能力,如果能引入通信的編解碼里面,一方面可以降低視頻編碼的復(fù)雜度,還能在傳輸過(guò)程中更好地保護(hù)上下文重要的語(yǔ)義信息;第三是在先驗(yàn)知識(shí)方面,大腦能夠自動(dòng)匹配之前接觸過(guò)的認(rèn)知,如果應(yīng)用到通信中,能夠降低一些特殊場(chǎng)景下對(duì)帶寬的需求。
深度學(xué)習(xí)、機(jī)器視覺(jué)
視頻編解碼,在如今5G甚至6G蓬勃發(fā)展的現(xiàn)在尤為重要,特別是在多媒體數(shù)據(jù)壓縮中。音頻、視頻、圖像以及新興的VR、高維度數(shù)據(jù)等,其數(shù)據(jù)量通常很大,需要大量存儲(chǔ)空間和傳輸帶寬。為了解決這個(gè)問(wèn)題,視頻編解碼技術(shù)應(yīng)運(yùn)而生,經(jīng)過(guò)幾代標(biāo)準(zhǔn)的發(fā)展,如H.264/AVC、H.265/HEVC、H.266/VVC等。深度學(xué)習(xí)在音頻信號(hào)壓縮方面已經(jīng)取得了一些進(jìn)展,但在視頻信號(hào)壓縮方面仍然具有挑戰(zhàn)性。
劉杉博士指出,在機(jī)器視覺(jué)、信息(如語(yǔ)音和圖像)處理等方面,深度學(xué)習(xí)和人工智能已經(jīng)在不少實(shí)際應(yīng)用中發(fā)揮作用,進(jìn)而推動(dòng)在視頻編解碼中的使用探索。目前在視頻編解碼標(biāo)準(zhǔn)制定中,騰訊多媒體實(shí)驗(yàn)室也發(fā)現(xiàn)了許多技術(shù)提案和趨勢(shì),以適應(yīng)不同應(yīng)用和環(huán)境的需求。
陶曉明教授也表示,在鄉(xiāng)村、留守老人和兒童等特殊情境,可以通過(guò)引入腦科學(xué)的思想,使用腦電圖分析來(lái)提取人的主觀感知,以改善用戶(hù)體驗(yàn)。此外,陶曉明教授還介紹了一種基于時(shí)空素描圖的編解碼方法,通過(guò)提取視頻的輪廓、語(yǔ)義和關(guān)系等特征,以減小數(shù)據(jù)量。因此在接收端,需要使用生成式機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法,能夠?qū)崿F(xiàn)在特殊長(zhǎng)江下降低數(shù)據(jù)傳輸量,以滿(mǎn)足用戶(hù)的需求,生成最優(yōu)用戶(hù)體驗(yàn)的視頻。
語(yǔ)義通信與視頻編解碼
劉杉博士認(rèn)為,質(zhì)量評(píng)價(jià)是無(wú)所不在的,包括目前騰訊多媒體工作室正在研究的3D空間視頻壓縮傳輸。她認(rèn)為這些領(lǐng)域尚未成熟,有很大的探索空間,從人腦反饋出發(fā)的研究方法十分具有潛力,未來(lái)也許會(huì)對(duì)多媒體編解碼標(biāo)準(zhǔn)的改進(jìn)起到推動(dòng)作用。陶曉明補(bǔ)充說(shuō),在AR、VR和游戲等領(lǐng)域,腦電信號(hào)可以提供有關(guān)用戶(hù)體驗(yàn)的寶貴信息,如交互性、感覺(jué)和延時(shí)等,這對(duì)語(yǔ)義通信的研究也是一個(gè)新的維度,期待未來(lái)能夠與騰訊多媒體實(shí)驗(yàn)室一道,了解更多用戶(hù)需求。
騰訊多媒體實(shí)驗(yàn)室自2018年初開(kāi)始代表騰訊公司參與國(guó)際標(biāo)準(zhǔn)制定,迄今為止已有超過(guò)800項(xiàng)技術(shù)提案被多項(xiàng)國(guó)際標(biāo)準(zhǔn)采納并積累超過(guò)1500項(xiàng)已授權(quán)專(zhuān)利,數(shù)十人次在國(guó)際標(biāo)準(zhǔn)制定過(guò)程中擔(dān)任重要職務(wù),技術(shù)貢獻(xiàn)贏得國(guó)際標(biāo)準(zhǔn)組織和業(yè)界廣泛認(rèn)可。實(shí)驗(yàn)室榮獲ISO/IEC 杰出貢獻(xiàn)獎(jiǎng)、AVS產(chǎn)業(yè)技術(shù)創(chuàng)新單位獎(jiǎng)、技術(shù)與工程艾美獎(jiǎng)(Technical Emmy Award)、技術(shù)盧米埃獎(jiǎng)(Technology Lumiere Award)、數(shù)博會(huì)領(lǐng)先科技成果獎(jiǎng)、世界人工智能大會(huì)“鎮(zhèn)館之寶”。同時(shí)研發(fā)多媒體核心技術(shù)應(yīng)用于騰訊旗下多款產(chǎn)品,為億級(jí)用戶(hù)提供優(yōu)質(zhì)服務(wù)。從2018年開(kāi)始投入包括VR在內(nèi)的沉浸式媒體XR技術(shù)研發(fā)和系統(tǒng)建設(shè)以及AIGC能力智能內(nèi)容生產(chǎn),在2019年首次將VR應(yīng)用于騰訊產(chǎn)品,之后又陸續(xù)為新華社、故宮、敦煌等合作項(xiàng)目以及騰訊WE大會(huì)、騰訊全球數(shù)字生態(tài)大會(huì)、東北虎國(guó)家公園提供技術(shù)支持,以多媒體實(shí)驗(yàn)室技術(shù)為核心的“VR全景”、“自由視角”、“點(diǎn)云建模”、“點(diǎn)云壓縮”等通用解決方案已上架騰訊云官網(wǎng)。2019年,騰訊杰出科學(xué)家劉杉博士,向其所領(lǐng)導(dǎo)的多媒體實(shí)驗(yàn)室團(tuán)隊(duì)提出展開(kāi)面向“智能化內(nèi)容生產(chǎn)”技術(shù)研發(fā)的要求,并在此后的時(shí)間里帶領(lǐng)團(tuán)隊(duì)打造多項(xiàng)核心技術(shù)并逐步完善能力矩陣,應(yīng)用于多個(gè)內(nèi)容生產(chǎn)和創(chuàng)作的業(yè)務(wù)場(chǎng)景。2023年團(tuán)隊(duì)產(chǎn)品XMusic榮獲2023年世界人工智能大會(huì)“鎮(zhèn)館之寶”。未來(lái)多媒體實(shí)驗(yàn)室將持續(xù)投入相關(guān)技術(shù)建設(shè),持續(xù)為教育、工業(yè)、醫(yī)療、文旅、地產(chǎn)家居、金融等to B產(chǎn)業(yè)場(chǎng)景的建設(shè)做底層技術(shù)投入。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )