RTE2021,實時互動技術(shù)的進化與蝶變

10 月 22—23 日,由聲網(wǎng) Agora 主辦的 RTE2021 實時互聯(lián)網(wǎng)大會在北京圓滿落幕。大會以“萬象頻道”為主題,帶來了 20 余場實時互聯(lián)網(wǎng)全生態(tài)線下論壇及活動、近百場的精彩演講分享,覆蓋技術(shù)開發(fā)、行業(yè)觀察、創(chuàng)業(yè)投資、趨勢洞察等多維度話題。同時,在大會現(xiàn)場還設(shè)置了 demo 豐富的聲網(wǎng)展臺、酷炫的  Metaverse 展臺以及豐富的周邊活動,為參會觀眾展示了實時互動技術(shù)帶來的全新體驗。

圖片

從 2015 到 2021,今年已經(jīng)是實時互聯(lián)網(wǎng)大會跨過的第七個年頭,本屆大會吸引了 150+ 全球極具前瞻性與實踐力的技術(shù)領(lǐng)袖、近千名實時互聯(lián)網(wǎng)領(lǐng)域的從業(yè)者與數(shù)千名行業(yè)開發(fā)者的關(guān)注與參與。大會圍繞實時互動行業(yè)一年來的行業(yè)變遷、趨勢展望,從場景、技術(shù)、產(chǎn)品、生態(tài)等多個維度進行了深度探討與分享。

RTE 萬象圖譜重磅發(fā)布

全球首個全自動多場景模擬聲學實驗室落成

10 月 22 日 RTE2021 大會的主論壇上,聲網(wǎng) Agora 創(chuàng)始人&CEO 趙斌發(fā)表了主題為《萬象紛呈,實時進化》的演講。隨著線上模式被越來越多的行業(yè)所接受,RTE 技術(shù)正在不斷解鎖著全新的應用場景。從遠程辦公的興起到 LiveAudioCast 場景的爆發(fā),2021 年每一個人都親眼見證了實時互動、實時音視頻能力在媒體行業(yè)改造工業(yè)、引爆新的媒體形態(tài)、改造社會的交流形式的潛力。

圖片

聲網(wǎng) Agora 創(chuàng)始人、CEO 趙斌

趙斌在演講中談到了他總結(jié)的對于未來實時互動領(lǐng)域未來發(fā)展趨勢的關(guān)鍵詞:孿生與融合。

從趨勢上來看,數(shù)字化的普及是大勢所趨。但從娛樂場景來看,從影視到文藝、從直播到展會,越來越多的娛樂場景完成了由線上到線下的華麗轉(zhuǎn)身。當真正的數(shù)字化普及完成并實際發(fā)揮效用后,互動就成為了其中不可或缺的重要環(huán)節(jié)。這是針對現(xiàn)有場景而言,而當數(shù)字化技術(shù)與實時互動技術(shù)發(fā)生碰撞,還會有更多的應用場景誕生。數(shù)字化與互動技術(shù)的孿生,正是目前 RTE 領(lǐng)域使用量增加、應用滲透率提高,同時應用場景也在爆發(fā)的根本原因。

圖片

當深入數(shù)字化場景,其實不難發(fā)現(xiàn)線上線下體驗的相互融合,其本質(zhì)便是一種技術(shù)上深刻的進化。在虛擬與現(xiàn)實交融的場景中,數(shù)據(jù)的實時同步和共通帶來了數(shù)據(jù)的虛實融合。不論是技術(shù)的進化,亦或是環(huán)境的變化,都會給各種可能性釋放更多的空間。同理,實時互動的邊界也在不斷進化,傳統(tǒng)意義上的實時通訊向?qū)崟r互動場景化的人的共同存在,這樣的交互也有可能創(chuàng)造價值的擴張。

在演講過程中,趙斌發(fā)布了基于實時互動場景的“ RTE 萬象圖譜”,共覆蓋教育、泛娛樂、IoT、金融、醫(yī)療、企業(yè)協(xié)作、數(shù)字政府、智慧城市等 20+ 行業(yè)賽道,200+ 場景。趙斌表示:疫情的影響助推動萬象圖譜中的場景加速豐富和成熟,例如教育、社交、直播、會議等領(lǐng)域已初步形成成熟場景,并且他們未來將長期存在。

圖片

在萬象圖譜所包含的 200+ 場景中,不僅有許多已經(jīng)經(jīng)過實際應用考驗的成熟場景,還有數(shù)量遠超成熟場景的新萌芽場景。在萬象圖譜中,聲網(wǎng) Agore 依托自身龐大的行業(yè)經(jīng)驗與市場分析能力,對全球處在萌芽階段的應用場景進行了全面的梳理。開發(fā)者和創(chuàng)業(yè)者能夠通過萬象圖譜中的場景梳理,找尋全新的靈感與視角,并同聲網(wǎng)一起對這些萌芽場景進行打磨,探索其中真正的價值與創(chuàng)新點。

除了萬象圖譜,趙斌還在演講中宣布另一個重磅消息:聲網(wǎng) Agora 打造了全球第一個全自動的多場景模擬聲學實驗室。他表示:它的出現(xiàn)代表著 RTE 行業(yè)在多場景的實時互動下第一個專業(yè)的測試設(shè)施和測試環(huán)境的建設(shè)已經(jīng)成功投產(chǎn),將為未來多場景下的音頻和音效的研究、測試、評估帶來新的高度和便利。

下一代實時互聯(lián)網(wǎng),路向何方?

聲網(wǎng) Agora 首席科學家鐘聲博士分享了《實時互動與智能互聯(lián)網(wǎng)》的主題演講:

隨著線上線下的加速融合,在當下無論是視頻通話、在線課堂、VR/AR、直播秀場都已經(jīng)成為我們習以為常的生活體驗。實時互動技術(shù),毫無疑問它的出現(xiàn)極大地強化了人們在線上世界中的社交體驗,同時也提升了線上應用場景中的用戶粘性。

想要在線上世界中重現(xiàn)線下人們“歡聚一堂”的體驗,對于通信網(wǎng)絡(luò)低延時的需求是十分嚴苛的。針對實時互動中的低延時需求,在面對海量的非結(jié)構(gòu)化數(shù)據(jù)要被處理、要被理解、要被還原的需求上,做到感知通信計算一體化的技術(shù)支持是非常必要的。

聲網(wǎng) Agora 首席科學家鐘聲博士

在未來的實時互動場景里,從體驗上來講是敘事的延展,從過去單純的感官體驗到沉浸式的互動敘事感受,在未來的實時互動場景中人們將獲得更加豐富的體驗。在線上世界中,我們需要構(gòu)建基于自身的虛擬角色去演繹效果,其中虛擬角色與現(xiàn)實中真實存在的“我”,二者之間的聯(lián)系是需要數(shù)字孿生以及人體的數(shù)字孿生技術(shù)作為紐帶的。未來的實時互動中必須要有的是一種強大的交付、表達以及共情的能力,這其中包含了對表情情感的識別,以及環(huán)境的感知、觸覺的感知以及基于 AI 的 3D 建模,這些技術(shù)共同構(gòu)成了數(shù)字孿生。

在談到影響未來實時互聯(lián)網(wǎng)發(fā)展的關(guān)鍵技術(shù)時,鐘聲介紹到:聲網(wǎng)專注在做低延遲+邊+云的加速,實時構(gòu)筑在 PaaS 系統(tǒng)里,API 提供靈活應用業(yè)務(wù)構(gòu)建的內(nèi)容,以及先進的云/邊計算,未來這些肯定是非常重要的技術(shù)發(fā)展方向。通信領(lǐng)域除了帶寬、寬口的延時、可靠率、多設(shè)備連接繼續(xù)演進之外,像太赫茲、毫米波、超大規(guī)模 MIMO 都是底層的關(guān)鍵技術(shù)。同時,為了呈現(xiàn)更加貼近現(xiàn)實的視頻圖像效果,超高分辨率的視頻技術(shù)也是不可避免的。

同時,針對AI技術(shù)在實時互聯(lián)網(wǎng)中的應用,鐘聲也給出了自己的思路:如何能夠做到通過一個小數(shù)據(jù)就能把所有的信息檢索出來,恢復出來?這看似不能完成,但實際上可以通過 AI 的算法泛化大數(shù)據(jù)轉(zhuǎn)化為小數(shù)據(jù),以小數(shù)據(jù)驅(qū)動大數(shù)據(jù)。從發(fā)送端提取關(guān)鍵點,在接收端根據(jù)關(guān)鍵點重新生成視頻。

針對現(xiàn)如今通信與計算融合后,現(xiàn)有的運維、技術(shù)架構(gòu)已經(jīng)無法應對當今實時互動的業(yè)務(wù)和體驗要求。聲網(wǎng) Agora 首席科學家鐘聲在演講中表示,下一代的實時互聯(lián)網(wǎng),需要全網(wǎng)協(xié)同及網(wǎng)絡(luò)感知能力,并做好全域帶寬實時調(diào)度、全域資源實時調(diào)度,發(fā)展支持靈活的動態(tài)分布式計算云原生軟件架構(gòu),充分利用 AI算法來泛化智能,小數(shù)據(jù)驅(qū)動大數(shù)據(jù),并持續(xù)提升端/邊/芯片等硬件能力,才能滿足當今實時互動場景提出的技術(shù)、業(yè)務(wù)和體驗要求。

AI、深度學習不斷滲透 RTE 的方方面面

除了鐘聲博士的前瞻性研究,在 RTE2021 大會上我們能看到的另一個重要現(xiàn)象,是 AI、深度學習正在不斷滲透到實時音視頻的方方面面。音頻、視頻、網(wǎng)絡(luò)各領(lǐng)域的算法工程師們都在實踐,以 AI 去優(yōu)化與提升自身領(lǐng)域的性能表現(xiàn)。

谷歌工程師在 RTE2021 大會上分享了最新的低比特率語音編解碼器 Lyra,Lyra 以少量數(shù)據(jù)壓縮重構(gòu)語音,實現(xiàn) 20kpbs 以下的順暢視頻通話。谷歌工程師們對單個最大矩陣進行稀疏化,即門控循環(huán)單元(GRU)內(nèi)的矩陣,而這些塊矩陣可以實現(xiàn)為小而密集的矩陣,從而讓深度學習訓練速度提高了兩倍。

圖片

聲網(wǎng)的 Silver 語音編解碼器則是通過深度學習探索碼率、算力和效果的平衡。聲網(wǎng)的音頻算法團隊使用 AI-NS 降噪算法提升語音信噪比,解決噪聲問題,以減少低碼率帶來的 artifact;

編碼基于傳統(tǒng)算法的分頻帶特征提?。ɑl、子帶頻譜包絡(luò)、能量等),以及 RVQ、距離編碼等方法實現(xiàn)特征編碼節(jié)省碼率;解碼采用自回歸模型和帶寬擴展(BWE)的 WaveRNN 模型實現(xiàn)模型算力的精簡?;谧匝械亩嗥脚_ AI 推理引擎實現(xiàn)模型的非對稱量化、混合精度推理、計算壓縮解碼耗時,最終保證移動端部署的實時性。

另外,還有 NVIDIA 深度學習資深解決方案架構(gòu)師在大會上分享了英偉達從提升算力、結(jié)構(gòu)化稀疏減少算力損耗、模型量化尋找最優(yōu)算力的深度學習“一增兩減”思路。聲網(wǎng) Agora SD-RTNTM 網(wǎng)絡(luò)傳輸質(zhì)量工程師分享,探索聲網(wǎng)如何將運維操作的 API 化、平臺化,將 AI 和 OPS 拆解成算法-決策-執(zhí)行,以實現(xiàn) 7*24H 無間斷、運維執(zhí)行的質(zhì)量和效率。

視頻標準與專利發(fā)展迅速,期待 AV2 的到來

除了 AI 的深入實踐,國內(nèi)廠商在實時音視頻領(lǐng)域另一個重要的戰(zhàn)場,標準制定上,也在投入大量精力。RTE2021 大會上,參與了高清、4K 等視頻國際標準制定的葉琰博士,分享了關(guān)于 MPEG、ITU 發(fā)展歷程,VVC 性能演進詳細指標數(shù)據(jù),以及視頻標準商用落地的最新個人觀點。

圖片

MPEG 發(fā)展路徑

她很坦率地提出了,已經(jīng)占據(jù)互聯(lián)網(wǎng) 80% 流量的視頻,壓縮技術(shù)日趨被重視,也將帶來專利技術(shù)之爭,以及專利授權(quán)的復雜場景。另外,MPEG 視頻相關(guān)工作將在 VVC 下一代標準技術(shù)研發(fā)、AI 視頻編碼(包含傳統(tǒng)框架下提供更高壓縮性能、神經(jīng)網(wǎng)絡(luò)進行視頻壓縮兩個方向),以及浸入式視頻方向發(fā)力。

除了視頻標準,RTE2021大會上,谷歌工程師也帶來了最新的 AV2 編解碼器的設(shè)計和性能優(yōu)化成果。上一代 AV1 僅僅在引入實際場景落地的進程中,谷歌的工程師們已經(jīng)在繼續(xù)向前,以 0.4~1.5% 的性能提升,探索編解碼效率的極限。所以,與 AV2 相關(guān)的場景和標準,也將是業(yè)界重點關(guān)注的工作。

WebRTC 開源與標準之上,聲網(wǎng)如何打破“黑盒子”

今年,WebRTC 正式成為 W3C 與 IETF 的官方標準,看起來塵埃落定。不過,WebRTC 開源社區(qū) Committer、聲網(wǎng) Agora WebRTC 負責人毛玉杰在大會上分享了,各組織在 WebRTC Codecs 存在著開源與標準之爭的現(xiàn)狀問題,以及聲網(wǎng)在 WebRTC 標準之上,如何設(shè)計 Web 端到端音視頻傳輸架構(gòu),降低開發(fā)者對實時音視頻的使用門檻。

他總結(jié)了 WebRTC 的六個現(xiàn)有問題:設(shè)備與外設(shè)缺乏適配、各類瀏覽器兼容性、移動端支持不佳、音視頻模塊不可定制、性能問題、統(tǒng)計數(shù)據(jù)缺失,目前瀏覽器廠商并不能全部解決以上問題。聲網(wǎng)結(jié)合 ORTC、WebRTC Extenions、WebRTC-SVC、Web Transport、Raw-Socket……等多個技術(shù)標準,形成了現(xiàn)在聲網(wǎng)的 Web 端到端音視頻傳輸架構(gòu)。

圖片

聲網(wǎng) Web 端到端音視頻傳輸架構(gòu)

從 AgoraAI 實時 AI 加速引擎的推出,到在千元機上開啟各類 AI 玩法;從 WebRTC 的標準化,到在探索在 Web 端達到 native 端同等的能力;從 RTC 與 IM 融合基礎(chǔ)上提供的 aPaaS 到 RTE 萬象圖譜的發(fā)布。過去一年是聲網(wǎng)  Agora 技術(shù)進化的一年,也是實時互聯(lián)網(wǎng)邁向全新技術(shù)階段的重要變革點,RTE 領(lǐng)域的未來值得我們期待!

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-11-01
RTE2021,實時互動技術(shù)的進化與蝶變
10 月 22—23 日,由聲網(wǎng) Agora 主辦的 RTE2021 實時互聯(lián)網(wǎng)大會在北京圓滿落幕。

長按掃碼 閱讀全文