騰訊多媒體實驗室夏珍:視頻畫質(zhì)增強(qiáng)的現(xiàn)狀、應(yīng)用、未來

全真互聯(lián)時代,音視頻技術(shù)內(nèi)核不斷更新迭代,LiveVideoStackCon 2022 北京站邀請到騰訊多媒體實驗室視頻技術(shù)研發(fā)負(fù)責(zé)人——夏珍,與大家分享畫質(zhì)增強(qiáng)技術(shù)的一些前沿探索和應(yīng)用研究,在經(jīng)典影像中非常重要的畫質(zhì)提升技術(shù)人臉修復(fù)和去壓縮失真的能力,以及在騰訊視頻和云游戲中能帶來畫質(zhì)增強(qiáng)的技術(shù)。

來自騰訊多媒體實驗室的夏珍,一直從事視頻處理技術(shù)的相關(guān)研究與應(yīng)用,希望分享的內(nèi)容能給到大家一些幫助,也借此機(jī)會向各位同行學(xué)習(xí)。

本次分享的主題是《畫質(zhì)增強(qiáng)的前沿應(yīng)用》,內(nèi)容包括三部分:一是畫質(zhì)增強(qiáng)技術(shù)現(xiàn)狀,第二部分是畫質(zhì)增強(qiáng)技術(shù)的前沿應(yīng)用,第三部分是畫質(zhì)增強(qiáng)技術(shù)的趨勢。

一、畫質(zhì)增強(qiáng)-現(xiàn)狀

下面將從三方面介紹畫質(zhì)增強(qiáng)技術(shù)。

當(dāng)時做PPT時還是22年8月份,當(dāng)時最火的概念應(yīng)該是4K/8K超高清、VR、3D等是人們熱議的話題,不管是學(xué)界還是工業(yè)界都是高熱點,在這些前沿技術(shù)應(yīng)用里,畫面分辨率、細(xì)節(jié)已達(dá)到非常高清的程度,制作內(nèi)容也達(dá)到很高標(biāo)準(zhǔn),甚至很多顯示屏已經(jīng)超過人眼能分辨的極限。

然而實際生活中,在不同的終端、場景和應(yīng)用里,相信大家都遇到過以下情況:比如為了視頻時畫面更清晰,給父母買了像素很高的相機(jī),然而最終呈現(xiàn)的畫面依然模糊不清,或是參加線上會議時,經(jīng)常出現(xiàn)畫面模糊,又或是看劇時畫質(zhì)很差。大家會疑慮:內(nèi)容為什么沒有預(yù)期的清晰?

導(dǎo)致畫面不如預(yù)期的因素有很多,包括硬件條件、網(wǎng)絡(luò)帶寬、編碼方式、原始素材等,在這樣受限的場景下,如何提升用戶體驗的主觀感受呢?

提升畫質(zhì)是擺在很多應(yīng)用場景下繞不開的命題,畫質(zhì)增強(qiáng)包括哪些技術(shù)?又分別能解決什么問題呢?下文將從三個維度進(jìn)行分析,當(dāng)然從信號處理的角度有更多維度去評估,比如頻域等就不進(jìn)一步展開了。

首先對于時域維度,即大家理解的時間維度上,他主要解決的視頻連續(xù)播放時在時域上干擾人眼的信號,在實際場景中會有運(yùn)動不流暢、畫面抖動和時域噪聲等問題,所以在時域上會出現(xiàn)對應(yīng)的解決方案,比如插幀、視頻去抖動、時域降噪等。

左側(cè)的哈士奇在轉(zhuǎn)動時會出現(xiàn)卡頓,通過幀率上采樣可以使其更流暢。右側(cè)上方是帶噪聲的影片,下方通過視頻降噪算法優(yōu)化后,畫面噪聲減少很多。

空域,即從空間的維度上,大家能遇到的大部分問題也是在這個維度上,它主要是提升人眼主觀感受的畫質(zhì),播放時比如模糊、噪聲、失真、低分辨率等常見問題,所以在空域上有種類繁多的增強(qiáng)算法,大家都熟知的算法,超分辨率、去壓縮失真、細(xì)節(jié)增強(qiáng)、去劃痕等。上方左圖存在許多塊,編碼壓縮失真的問題、右圖通過優(yōu)化后獲得了更好的畫面效果。下方左圖包括許多劃痕和噪點,右圖通過AI去劃痕算法后極大改善了畫面的畫質(zhì)。

色域,即從顏色的維度上,人眼對色彩是非常敏感,色彩畸變或黑白畫面在很大程度上會影響用戶的主觀感受,在色域上增強(qiáng)技術(shù)分SDR域和HDR域的算法,比如SDR2HDR、色彩增強(qiáng)、暗場景增強(qiáng)、HDR增強(qiáng)等算法,都是對色彩進(jìn)行處理的算法。

上方的圖像經(jīng)過HDR轉(zhuǎn)換后,色彩及色域都更加豐富。下方的圖像通過AI自動上色,使得畫面豐富度和人眼主觀感受有明顯提升。

二、畫質(zhì)增強(qiáng)-前沿應(yīng)用

接下來會從兩方面介紹畫質(zhì)增強(qiáng)的前沿技術(shù),一個是不太考慮算力但對效果有極致要求的經(jīng)典影像修復(fù)技術(shù),另一個是非??简炈懔Φ慕K端超分技術(shù)。

2.1經(jīng)典影像修復(fù)

這是2022年多媒體實驗室修復(fù)李苦禪老人經(jīng)典影像的畫面,可以看到其中有很多影響主觀質(zhì)量的因素,包括劃痕、雪花點、噪聲、失真、模糊、色彩等問題。

這一頁總結(jié)了影像修復(fù)中常見的問題,包括劃痕、霉斑、噪聲、低分辨率、模糊等,而經(jīng)典影像修復(fù)包含以下幾個主要步驟:膠片物理修復(fù)、膠轉(zhuǎn)磁,數(shù)字修復(fù)和優(yōu)化,最后的上映或保存。

在經(jīng)典影像修復(fù)的過程中,騰訊多媒體實驗室積累了深厚的技術(shù)和實踐經(jīng)驗,形成一套較完整的基于AI的影像修復(fù)技術(shù)流程,主要分四個大的模塊,包括智能分析、畫質(zhì)修復(fù)、畫質(zhì)增強(qiáng)和智能轉(zhuǎn)碼。

智能分析:對視頻進(jìn)行智能分析,提供包括幀級、場景級和視頻級不同粒度的分析,包括畫面復(fù)雜程度、運(yùn)動程度、噪聲程度、失真程度、色彩豐富度等分析,用以指導(dǎo)后續(xù)畫質(zhì)修復(fù)和畫質(zhì)增強(qiáng)技術(shù)能力的自動化使用。

畫質(zhì)修復(fù):結(jié)合了智能分析模塊的信息,選取最佳模型對視頻進(jìn)行修復(fù),包括去壓縮失真、視頻降噪、人臉修復(fù)、去劃痕等技術(shù)能力。

畫質(zhì)增強(qiáng):根據(jù)智能分析模塊的信息,合理選擇最佳的算法和參數(shù),包括視頻超分辨率、色彩增強(qiáng)、細(xì)節(jié)增強(qiáng)、AI自動化上色、暗場景增強(qiáng)、幀率上采樣等算法,經(jīng)過這樣處理后得到完整修復(fù)的視頻。比如老的影片大部分是15fps或分辨率是720*468,此時畫質(zhì)增強(qiáng)模塊會默認(rèn)開啟超分辨率和幀率上采樣,對其進(jìn)行插幀,從而使得影片在大屏播放時呈現(xiàn)出更好的效果。

智能編碼:為了更好地進(jìn)行傳輸和播放,結(jié)合騰訊多媒體實驗室最核心的編解碼能力,通過最佳人眼視覺的編碼方式對視頻進(jìn)行轉(zhuǎn)碼壓縮,在保證視頻主觀質(zhì)量情況下,對視頻進(jìn)行最小質(zhì)量的轉(zhuǎn)碼輸出。

這是多媒體實驗室“光影煥新”經(jīng)典影像修復(fù)的主要架構(gòu),從架構(gòu)上分為應(yīng)用層、解析層、分析層、處理層、支持層和封裝層。架構(gòu)上會將智能分析的主要能力放在這一層,然后結(jié)合解析層的結(jié)果去指導(dǎo)處理層算法的自動化處理,底層也會根據(jù)服務(wù)器不同采用不同的底層架構(gòu),比如GPU服務(wù)器會用TRT做統(tǒng)一的深度學(xué)習(xí)推理庫,而如果在CPU架構(gòu)上則會轉(zhuǎn)換成OpenVINO和其他能力,最后在封裝層,根據(jù)用戶的需求選擇對應(yīng)的碼流。

當(dāng)然在近年的研究和積累過程中,也遇到了非常多的問題和難題,比如去劃痕在影像修復(fù)中很重要,但在業(yè)界研究是個很小眾的問題,我們在數(shù)據(jù)集、算法和模型上都是從零開始構(gòu)建,比如超分雖然不斷有新的進(jìn)展,但實際場景中適用性都不好,只能針對不同場景開發(fā)不同級別的模型。

以去失真生成模型研究為例,首先去失真生成模型解決了什么問題?在經(jīng)典影像中不同于常見的視頻,比如左圖放大的畫面,因為受限于經(jīng)典影像拍攝的年代、拍攝硬件、存儲等因素,導(dǎo)致畫面存在嚴(yán)重破壞畫質(zhì)的問題,比如噪聲、編碼失真、模糊等等問題,之前的研究過程是先進(jìn)行去壓縮失真、降噪等處理再通過后面的超分辨率、細(xì)節(jié)增強(qiáng)等算法增強(qiáng)細(xì)節(jié),但后面發(fā)現(xiàn)在前面進(jìn)行去壓縮失真和降噪等處理已經(jīng)把細(xì)節(jié)都丟失了,后面的超分、細(xì)節(jié)增強(qiáng)很難恢復(fù)細(xì)節(jié)恢復(fù),基于這個問題開發(fā)了去失真生成模型,主要解決的是在去壓縮失真的同時對細(xì)節(jié)進(jìn)行增強(qiáng)和生成,只有兩個能力在一個模型里才能在去掉失真的同時生成更豐富的細(xì)節(jié)。

作為近年對超分辨率研究工作的延伸,騰訊多媒體實驗室提出一種高效的失真生成模型。首先模型需要有處理復(fù)雜失真的能力,因此在數(shù)據(jù)集制作中參考現(xiàn)有SR模型的降質(zhì)過程結(jié)合經(jīng)典影像數(shù)據(jù)集的特點,盡可能還原經(jīng)典影像中失真的類型和生成方式,數(shù)據(jù)集上會采用多種視頻編碼方式、多種上下采樣方法,多種模糊和噪聲方式進(jìn)行數(shù)據(jù)生成。

模型分為三個模塊,對齊模塊、AR模塊和判別器模塊。對齊模塊是將前后兩幀進(jìn)行特征對齊,經(jīng)過性能分析發(fā)現(xiàn),隱式的可變性卷積方式相對顯性的光流對齊模塊要更高效。AR模塊是進(jìn)行去失真和細(xì)節(jié)生成能力,最后經(jīng)過判別器,判別器模塊不同于單幀的判別,會提取當(dāng)前幀空間信息和時域幀間的信息。為實現(xiàn)更高效的目的,采用前后兩幀作為對齊幀,網(wǎng)絡(luò)采用殘差結(jié)構(gòu),光流和AR模塊只需要關(guān)注特征部分,裁剪模型中對模型影響較小的層。

右圖不僅修復(fù)了很嚴(yán)重的噪聲、失真和模糊等問題,比如畫面中噪聲、背景的抖動和模糊的問題,同時對細(xì)節(jié)比如人臉、衣服紋理和植物的細(xì)節(jié)做了很好的生成,做到真正的高清呈現(xiàn)。

2.2端側(cè)-高效超分

云游戲在中國市場成為越來越受關(guān)注的云和游戲結(jié)合的新模式。而隨著云游戲的發(fā)展,編解碼在云游戲中的應(yīng)用逐漸得到體現(xiàn),云游戲也逐漸從滿足編解碼性能和畫質(zhì)上進(jìn)入更多拓展階段,因為云游戲?qū)⑺懔挠脩羰謾C(jī)轉(zhuǎn)移到服務(wù)器上,所以服務(wù)器、帶寬的成本壓力非常巨大,現(xiàn)階段各公司在“降本增效”上下足了功夫,如何利用視頻技術(shù)在保證畫質(zhì)體驗不變的情況下,節(jié)省服務(wù)器和帶寬成了一個重要課題,比如云游戲需要1080p/30fps才能保證基礎(chǔ)體驗,而現(xiàn)在使用了超分,只需要在服務(wù)器渲染540p/30fps的流,推到本地手機(jī)后再通過手機(jī)算力進(jìn)行超分到1080p,實現(xiàn)節(jié)省帶寬和服務(wù)器成本的目的。

接下來介紹騰訊多媒體實驗室在云游戲中端側(cè)超分的研究,端側(cè)超分也會應(yīng)用在騰訊視頻中以達(dá)到降低成本的目的,端側(cè)超分也是正在研究中的內(nèi)容,因此提出來和大家一起討論學(xué)習(xí)。

首先介紹超分在云游戲中遇到的難點,一個是云游戲?qū)ρ訒r相比直播、視頻通話要求更高,增加算法影響游戲的體驗,二是云游戲大分辨率、高幀率畫面,對算法性能要求非常高,三是云游戲終端分布廣泛,包括PC、Mac、TV、手機(jī)等復(fù)雜場景適配困難。

基于以上的難點,騰訊多媒體實驗室在模型上下了很大功夫,并基于之前積累的算法經(jīng)驗,提出了“化繁為簡”的模型方案,但“簡”并不簡單。

首先利用殘差結(jié)構(gòu),利用有限網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)盡量多的參數(shù),同時通過蒸餾方案,在中間層的學(xué)習(xí)中利用導(dǎo)師網(wǎng)絡(luò)進(jìn)行指導(dǎo),第三重參數(shù)化,因為性能因素網(wǎng)絡(luò)層數(shù)不夠,便利用重參數(shù)思想訓(xùn)練復(fù)雜的網(wǎng)絡(luò),在推理時合并算子達(dá)到簡化的目的。

經(jīng)過多次優(yōu)化,在windows和android上測試了一些不同結(jié)構(gòu)的方案,基本上能達(dá)到超分后1080p/30fps的要求,左邊的客觀指標(biāo)是在windows端對比傳統(tǒng)bicubic和某個競品的方案,從vmaf/psnr/ssim指標(biāo)上都顯著優(yōu)于競品和傳統(tǒng)方案,當(dāng)然這些客觀指標(biāo)其實并不能反映主觀質(zhì)量。

圖中可以看出,右圖自研超分方案相對于競品在文字上邊緣更細(xì)膩、完整,紋理上更細(xì)膩和真實,這也是超分需要達(dá)到的真實效果。當(dāng)然方案還在不停優(yōu)化中,還有很多可優(yōu)化的點,也希望能和大家一起討論和學(xué)習(xí)。

三、畫質(zhì)增強(qiáng)-未來

未來的技術(shù)發(fā)展列了以下四個方向,一個是作為AIGC的基礎(chǔ)組件,比如在文生圖、文生視頻等方向上,畫質(zhì)增強(qiáng)能節(jié)省生成時間,生成更大更清晰的圖像和視頻;第二個是3D方向,比如在人臉建模方向上使用超分后能大幅度提升建模的效果;第三個是上文提到的移動端部署,隨著手機(jī)性能不斷提升,GPU、NPU等逐漸普及后,以前在移動端很難實現(xiàn)的能力也能在移動端落地了,比如云游戲的超分就能達(dá)到降本增效的目的,這個場景也可以用在點播、直播等場景中。第四點是畫質(zhì)技術(shù)本身應(yīng)該朝著符合人眼真實度方向發(fā)展,比如AI上色怎么能還原以前真實的色彩,人臉修復(fù)能否更自然等。

以上是本次的分享,謝謝!如有問題請與騰訊多媒體實驗室聯(lián)系,了解更多信息。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )