123,123

10月25日，以為“AI 愛”為主題的RTE2024 第十屆實時互聯(lián)網(wǎng)大會在北京正式開幕，覆蓋AI、出海、社交泛娛樂、IoT、Voice AI、空間計算等20+行業(yè)及技術(shù)分論壇。

據(jù)悉，本屆大會由聲網(wǎng)和 RTE 開發(fā)者社區(qū)聯(lián)合主辦，今年是聲網(wǎng)成立的十周年，也是 RTE 大會的第十屆。十年間，實時互動已經(jīng)從“理念”逐漸發(fā)展成一個“行業(yè)”。實時互動技術(shù)不僅助力社交泛娛樂、在線教育、IoT、企業(yè)服務(wù)等幾十個行業(yè)、數(shù)百個場景實現(xiàn)了跨越式成長，也支撐了諸多互聯(lián)網(wǎng)風(fēng)口的進化，從過去的電商直播、互聯(lián)網(wǎng)醫(yī)療、秀場直播到如今的大模型，都離不開 RTE 能力的參與和賦能。

在全新的生成式 AI 時代，RTE 與 AI 也在迎來更多可能性。25日上午的 RTE2024 主論壇中，聲網(wǎng)創(chuàng)始人兼 CEO 趙斌、Lepton AI 創(chuàng)始人兼 CEO 賈揚清、聲網(wǎng)首席科學(xué)家、CTO 鐘聲分別帶來主題演講。

趙斌分享了聲網(wǎng)十年以來專注實時互動行業(yè)的深刻洞察，以及他對 RTE 在生成式 AI 時代下未來發(fā)展的趨勢判斷。賈揚清則站在 AI 基礎(chǔ)設(shè)施的視角下，分享了他對 AI 應(yīng)用、云、和 GPU 算力云技術(shù)的獨到觀點。鐘聲的主題演講聚焦在對實時 AI 基礎(chǔ)設(shè)施的探討上，并分享了 AI 與 RTE 結(jié)合的前沿技術(shù)實踐。

趙斌：生成式 AI 將驅(qū)動 IT 行業(yè)四大變革

生成式 AI 正在驅(qū)動 IT 行業(yè)發(fā)生大變革，趙斌認(rèn)為，這一趨勢主要體現(xiàn)在四個層面：終端、軟件、云和人機界面。在終端上，大模型能力將驅(qū)動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上，所有的軟件都可以、也將會通過大模型重新實現(xiàn)，并從 Software with AI 發(fā)展至 AI Native Software 。在云的層面，所有云都需要具備對大模型訓(xùn)練和推理的能力，AI Native Cloud 將成為主流。此外，人機界面的主流交互方式也將從鍵盤、鼠標(biāo)、觸屏變成自然語言對話界面（LUI）。

隨著生成式 AI 成為下個時代 IT 行業(yè)進化的主題，RTE 也成為了多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施中一個關(guān)鍵的部分。10月初，聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者，出現(xiàn)在了OpenAI 發(fā)布的 Realtime API 公開測試版中。

在此次大會中，趙斌表示，聲網(wǎng)與 MiniMax 正在打磨中國第一個Realtime API。趙斌也展示了聲網(wǎng)基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中，人與智能體輕松流暢的進行實時語音對話。當(dāng)人類打斷智能體并提出新的疑問時，智能體也能夠非常靈敏的快速反應(yīng)，實現(xiàn)了與人類自然流暢的對話。

在生成式 AI 的大潮下，RTE 將會提供更為廣闊的空間。趙斌也在分享中宣布，聲網(wǎng)正式發(fā)布了 RTE+AI 能力全景圖。在全景圖中，聲網(wǎng)從實時 AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實時多模態(tài)對話式 AI 解決方案、RTE+AI 應(yīng)用場景五個維度，清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。生成式 AI 與RTE 結(jié)合帶來的場景創(chuàng)新，將成為下一個十年的主題。

過去十年，聲網(wǎng)不僅見證并推動了 RTE 從一個理念變成一個行業(yè)的過程，更身體力行的打破了國內(nèi)實時音視頻領(lǐng)域的三無狀態(tài)。趙斌稱，10年前行業(yè)內(nèi)沒有行業(yè)會議、專業(yè)書籍、以及專業(yè)媒體和社區(qū)。如今，RTE 大會邁入第10年，聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實時互動的技術(shù)型科普圖書《讀懂實時互動》，同時，RTE開發(fā)者社區(qū)也持續(xù)繁榮，加速推動。

賈揚清：AI 是云的第三次浪潮

隨著 AI 技術(shù)的發(fā)展，AI 時代的大模型應(yīng)用開發(fā)、AI 云、以及 GPU 等基礎(chǔ)設(shè)施建設(shè)逐漸成為熱門話題，也成為了支撐整個行業(yè)發(fā)展、催生新應(yīng)用誕生、新商業(yè)價值實現(xiàn)的基本底座。Lepton AI 創(chuàng)始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應(yīng)用、云、GPU 算力云技術(shù)以及企業(yè)大模型自主性等層面帶來了他對 AI 基礎(chǔ)設(shè)施進化的解讀。

針對 AI 應(yīng)用，賈揚清指出，今天是最容易建設(shè) AI 應(yīng)用的時代，越是簡潔的 AI 模型思路越容易產(chǎn)生優(yōu)秀的效果。AI 能力加持后，應(yīng)用本身的開發(fā)范式也在從數(shù)據(jù)、模型、應(yīng)用構(gòu)建三個維度發(fā)生變化，未來的應(yīng)用開發(fā)將從“以流程為中心” 轉(zhuǎn)化為“以模型為中心”。

除了 AI 應(yīng)用層面，傳統(tǒng)的云架構(gòu)也在大模型、GPU 優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚清認(rèn)為，AI 是云的第三次浪潮，繼 Web 云、數(shù)據(jù)云之后，AI 將成為第三朵云。AI 云有以下三個特征：算力會成為智能的基礎(chǔ)、AI 云需要大量計算與大規(guī)模的異構(gòu)集群，以及少量但高質(zhì)量的通訊?？傮w而言，云的產(chǎn)品形態(tài)，本質(zhì)是計算和傳輸?shù)钠胶狻ＹZ揚清指出，在 AI 云的形態(tài)下，實時的交流和智能的結(jié)合在用戶體驗環(huán)節(jié)非常重要。毫不夸張的說，實時將直接與生產(chǎn)力劃上等號。

企業(yè)在構(gòu)建自己的大模型自主性上，到底該如何決策？賈揚清強調(diào)，企業(yè)應(yīng)該將開源和閉源大模型都納入考慮范疇。采用開源模型+定制化的優(yōu)勢不僅僅是具備更強的可定制性，還有更低的成本以及更高的速度，開源+定制化能夠達(dá)到比閉源模型更好的效果。

鐘聲：分布式端邊云結(jié)合的AI系統(tǒng)將成為現(xiàn)代基礎(chǔ)設(shè)施的基本形態(tài)

在已經(jīng)到來的 AI 時代，現(xiàn)代化基礎(chǔ)設(shè)施應(yīng)該是什么樣？聲網(wǎng)首席科學(xué)家、CTO鐘聲提到，大量用戶設(shè)備往往會先接入邊緣節(jié)點、并在需要的時候再接入云端，數(shù)據(jù)將在端設(shè)備、邊緣節(jié)點和云之間往返傳遞。AI 時代的數(shù)據(jù)中心會包含以大量異構(gòu)算力組成的超級計算集群（SuperScaler）。但是，停留在僅依賴超級計算集群的系統(tǒng)是遠(yuǎn)遠(yuǎn)不夠的，萬億參數(shù)、多模態(tài)引入所造成的高昂計算成本、缺乏機制約束的數(shù)據(jù)隱私保護、幾秒鐘的延時都將阻礙大模型的普惠，極大地限制其在很多場景下的應(yīng)用。

鐘聲認(rèn)為，分布式端邊云結(jié)合的 AI 系統(tǒng)將有效解決這些痛點。這個系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置，系統(tǒng)會智能地以自適應(yīng)的方式把任務(wù)編排到端與邊上執(zhí)行，非常有效地降低了成本，同時提供了更低延時（低于1秒級的響應(yīng)速度）、更高網(wǎng)絡(luò)抖動容忍度、優(yōu)秀的抗噪聲能力，并且完整的用戶數(shù)據(jù)只會保留在端上。

分享過程中，鐘聲還在大會現(xiàn)場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結(jié)合實時對話AI智能體，這也是全球首次有廠商在比日常實際場景更具挑戰(zhàn)的環(huán)境下展示實時AI 對話能力。大會現(xiàn)場觀眾規(guī)模超過千人，面臨復(fù)雜的噪聲、回聲、麥克風(fēng)延遲等困難，但智能體與鐘聲的互動仍然表現(xiàn)出了優(yōu)秀的對話能力，在普通5G網(wǎng)絡(luò)環(huán)境下實現(xiàn)了流暢、自然、有趣的雙向?qū)崟r對話，對話模型的極快響應(yīng)速度、及時打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令做等待能力都非常突出。

正如鐘聲在最后分享的，隨著端設(shè)備的多樣化以及能力的提升，AI 基礎(chǔ)設(shè)施會變得更優(yōu)化合理，使得 AI 無處不在，AI助理、AI分身幫助我們有效緩解時間稀缺性，改善工作效率和生活體驗。

圓桌：AI 的6000億難題，從基礎(chǔ)設(shè)施到商業(yè)化落地

AI 的6000億美元難題，一直都是整個行業(yè)非常關(guān)心的話題，在圓桌討論環(huán)節(jié)中，Lepton AI 創(chuàng)始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人＆CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機會與挑戰(zhàn)。

針對商用大模型和開源大模型未來的發(fā)展趨勢，賈揚清分享了兩個核心觀點：其一，同等質(zhì)量模型的Size會變得越來越小，計算效率會越來越高，模型架構(gòu)也會變得更加開放和標(biāo)準(zhǔn)。其二，除了極少數(shù)頭部公司之外，越來越多的企業(yè)會采用開源架構(gòu)來做下一代模型。因此，開源架構(gòu)的應(yīng)用會變的越來越普遍，通過開源架構(gòu)訓(xùn)練出來的模型也都會有各自不同的風(fēng)格。

王鐵震則表示，我們將在未來看到越來越多 Infra 和 Realtime 的工作，大家不僅需要關(guān)注開源模型本身，還需要重視開源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán)，才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型，如果能夠通過一些方式放在一起，放在邊緣側(cè)、離用戶更近的地方，才能產(chǎn)生非常好的效果。

關(guān)于如何看待音視頻多模態(tài)模型的實際應(yīng)用潛力，魏偉表示，隨著多模態(tài)的出現(xiàn)，生成式人工智能的邊界一定會被繼續(xù)拓展，并加速這一產(chǎn)業(yè)的變革。從產(chǎn)品和用戶服務(wù)過程中魏偉發(fā)現(xiàn)，文本、語音、音樂、視頻這些模型可以很好的幫助藝術(shù)、影視、音樂等領(lǐng)域的創(chuàng)作者極大地提高效率，并為他們提供新的思路和方法。

針對大模型技術(shù)巨大的成本使用問題，曾國洋分享到，隨著技術(shù)的前進，算力一定會變得越來越便宜，相同能力的模型規(guī)模也會變得越來越小，但算力成本優(yōu)化會最終轉(zhuǎn)化為訓(xùn)練更強大的模型。真正達(dá)到 AGI 水平之前，我們只能感受到模型在變得越來越強，很難感受到成本的變化。他還提到，由于面壁智能是做端側(cè)模型的，所以很關(guān)注如何讓模型在端上跑得更快，在實際部署過程中，他們會用各種量化壓縮甚至是稀疏化方法去優(yōu)化實際部署的開銷。

總結(jié)來說，Tony Wang 認(rèn)為想要推動 AI Infra 到模型、再到商業(yè)化落地，技術(shù)驅(qū)動和成本是最核心的兩個點。此外，在產(chǎn)品真正走向市場的過程中，流量和口碑也是關(guān)鍵。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

第十屆實時互聯(lián)網(wǎng)大會開幕，聲網(wǎng)發(fā)布 RTE+AI 能力全景圖

下一篇

第十屆實時互聯(lián)網(wǎng)大會開幕，聲網(wǎng)發(fā)布 RTE+AI 能力全景圖

下一篇

第十屆實時互聯(lián)網(wǎng)大會開幕，聲網(wǎng)發(fā)布 RTE+AI 能力全景圖