4月20日,聲網(wǎng)Agora宣布對實時合唱技術(shù)方案全面升級,幫助國內(nèi)知名迷你KTV品牌“咪噠”實現(xiàn)國內(nèi)首個支持多終端、多人合唱、高音質(zhì)的完整實時合唱解決方案的落地,結(jié)束了國內(nèi)K歌行業(yè)長期探索“實時合唱”場景,卻一直未能上線的現(xiàn)狀。
在介紹聲網(wǎng)完整的實時合唱解決方案前,我們先來回顧下目前在線K歌行業(yè)常見的兩種在線合唱玩法,以及真正的“實時合唱”面臨了哪些技術(shù)難點?
體驗過在線KTV合唱玩法的用戶都了解,目前幾乎所有的在線合唱都是通過錄制合唱與單通合唱兩種方式實現(xiàn),以主唱A、用戶B為例:
錄制合唱:主唱A根據(jù)伴奏演唱——完成后點擊上傳——用戶B選擇帶有A歌聲的伴奏再演唱——錄制完成后間接完成合唱。
單通合唱:主唱A發(fā)起合唱——伴奏發(fā)給主唱A——主唱A的歌聲+伴奏發(fā)給用戶B
——用戶B加入一起唱。
第二種方案,看似是實時的,其實從體驗來講并非是合唱,其原因在于:用戶B與聽眾可以聽到主唱A的歌聲,而主唱A聽不到B的歌聲。此外,主唱A出現(xiàn)問題,用戶B就無法繼續(xù),這種方案還不支持兩人以上合唱。
而我們想要的真正的“實時合唱”應該就像是將線下K歌房的合唱情景照搬到線上一樣,雙方同時聽到伴奏后一起合唱,彼此都能實時聽到對方的聲音。
實時合唱面臨合唱同步、高音質(zhì)兩大技術(shù)難點
早在2018年,聲網(wǎng)就曾提出實時合唱的技術(shù)設(shè)想,但由于整體網(wǎng)絡(luò)基礎(chǔ)設(shè)施不夠成熟等原因一直未能真正集成上線,此后聲網(wǎng)針對實時合唱場景進行了長期的技術(shù)打磨,并與“咪噠”以及國內(nèi)多個在線K歌平臺、智能電視廠商反復集成測試,最終推出了高成熟度、超低延時、可落地的、完整的實時合唱解決方案。聲網(wǎng)在與客戶共同打磨的過程中總結(jié)了該場景的兩個核心技術(shù)難點:
1、合唱同步:這里的同步指的是兩個用戶的歌聲與伴奏三者之間的同步。我們先假設(shè)唱歌的兩位用戶都是專業(yè)級的,踩不準節(jié)奏的問題完全不存在。如上述場景描述,由于伴奏是同時發(fā)送給兩個用戶,那么關(guān)鍵就在于兩者的歌聲是否能同步。影響合唱同步的主要因素就是延時。
不考慮伴奏的情況下,假設(shè)用戶A和B之間的端到端延時為100ms。從聲音傳輸流程上來說,會出現(xiàn)以下這種情況:
A先唱,B聽到A的歌聲。此時產(chǎn)生100ms延時;
B在聽到A的歌聲后開始加入合唱,歌聲傳到A端。此時又產(chǎn)生100ms延時;那么
A聽到B的歌聲永遠延時200ms;
假設(shè)在線KTV中200-300ms唱一個字,那么用戶在聽感上會至少慢半個字,會有錯
位感。
2、實時合唱的高音質(zhì):
唱歌的人都有一個共同的心理需求,就是希望別人夸自己唱得好聽。音質(zhì)在合唱場景下就顯得尤為重要。而影響實時合唱音質(zhì)的因素主要包括:音頻采樣率、碼率、延時。
采樣率:是每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù)。采樣率越高,音頻
聽起來越接近真實聲音。
碼率:它是指經(jīng)過編碼(壓縮)后的音頻數(shù)據(jù)每秒鐘傳輸所表示的數(shù)據(jù)量(比特)。
碼率越高,意味著每個采樣的信息量就越大,對這個采樣的描述就越精確,音質(zhì)越好。
假設(shè)網(wǎng)絡(luò)狀態(tài)穩(wěn)定不變,那么采樣率越高、碼率越高,音質(zhì)就越好,但是相應單個采樣信息量就越大,傳輸時間可能會相對更長。也就是說,高音質(zhì)也可能會影響延時。
此外,實時合唱還會面臨音頻傳輸過程中產(chǎn)生的延時、與手機端、電視端、KTV端等一系列硬件設(shè)備的適配、兼容性的問題,多重技術(shù)難點讓很多想推出實時合唱玩法的K歌平臺、社交平臺、電視廠商等很是“頭疼”。
聲網(wǎng)發(fā)布行業(yè)首個完整的實時合唱解決方案
針對這些技術(shù)難點,聲網(wǎng)推出了行業(yè)首個完整的實時合唱解決方案,不僅有效解決合唱超低延時、伴奏同步對齊、合唱人數(shù)靈活性、高音質(zhì)保障等一系列問題,聲網(wǎng)還提供50ms超低延時耳返、歌詞同步、歌唱美聲、音浪頻譜等一系列功能,形成了一套業(yè)內(nèi)高完整度的實時合唱解決方案。
聲網(wǎng)實時合唱方案架構(gòu)大致如下:
主唱端與各個合唱端同時從本地獲取BGM,隨著伴奏同時開啟演唱;
通過SD-RTN™傳輸和調(diào)度,主唱與合唱們可以實時聽到其他人的歌聲,達成合唱。
同時觀眾可以享受到演唱者們“0延時”的合唱效果。
圖:聲網(wǎng)實時合唱技術(shù)方案架構(gòu)
在聲網(wǎng)的實時合唱方案中,圍繞超低延時處理、高音質(zhì)體驗、伴奏精準同步、合唱人數(shù)靈活等形成了六個維度的核心優(yōu)勢。
實現(xiàn)端到端64ms超低延時
在聲網(wǎng)實時合唱解決方案中,主唱和合唱端同時聽到伴奏,同時演唱,各方可以實時聽到其他演唱者的聲音,消除了接唱前產(chǎn)生的延時。合唱延時要解決的問題就是降低各自歌聲傳輸?shù)綄Ψ降倪@段端到端延時了。
針對音頻在傳輸過程中的延時問題,聲網(wǎng)在技術(shù)打磨的過程中發(fā)現(xiàn)在實時合唱場景中延時并不是越低越好,一味的追求更低的延時,可能會“犧牲”音質(zhì)等其他環(huán)節(jié)的質(zhì)量。在聲網(wǎng)看來,實時合唱的延時達到50ms是完美值,但想要實現(xiàn)50ms需要攻克這幾個技術(shù)難點:
1、音頻在采集端、播放端的延時:
設(shè)備端上的延時包括采集端的采集、前處理、編碼,播放端的接收、解碼、后處理過程產(chǎn)生的延時,以及兩端在編碼后和解碼前產(chǎn)生端網(wǎng)絡(luò)延時。
端上的延時主要與硬件性能、采用的編解碼算法、音視頻數(shù)據(jù)量相關(guān),設(shè)備端上的延時可達到 30~200ms,甚至更高。
2、網(wǎng)絡(luò)傳輸?shù)难訒r:
在實時合唱的場景中,要解決網(wǎng)絡(luò)不佳、網(wǎng)絡(luò)抖動,需要在采集設(shè)備端、服務(wù)器、播放端增設(shè)緩沖策略。一旦觸發(fā)緩沖策略就會產(chǎn)生延時。如果卡頓情況多,延時會慢慢積累。要解決卡頓、積累延時,就需要優(yōu)化整個網(wǎng)絡(luò)狀況。
聲網(wǎng)社交泛娛樂產(chǎn)品負責人王奇表示,“50ms端到端延時是我們一直在追求的目標,而目前聲網(wǎng)的實時合唱解決方案已經(jīng)可以實現(xiàn)64ms端到端延時,背后的核心是聲網(wǎng)對音頻在設(shè)備端的延時、弱網(wǎng)傳輸、音頻引擎消耗的延時等一系列技術(shù)難點的優(yōu)化,在實時合唱場景中,64ms延時已經(jīng)無限接近50ms的最佳理想狀態(tài),在這樣的延時情況下,用戶的實時合唱體驗幾乎從線下‘無感知’的搬到線上,場景體驗實現(xiàn)了高可用性,讓用戶真正能實現(xiàn)高穩(wěn)定性、高音質(zhì)、超低延時的實時合唱體驗。”
高音質(zhì)歌唱體驗+實時美聲
在實時合唱中,聲網(wǎng)的解決方案還能提供高音質(zhì)的歌唱體驗。聲網(wǎng)通過業(yè)內(nèi)領(lǐng)先的語音引擎,實現(xiàn)從低比特率的窄帶語音擴展到高質(zhì)量的立體聲音樂,并支持從8kHz(窄帶)到48kHz(全頻帶)采樣,聲網(wǎng)還擁有業(yè)界領(lǐng)先的 3A 算法,在不損傷音質(zhì)的情況下有效消除各類噪聲。
此外,聲網(wǎng)Agora 首創(chuàng)了實時美聲功能。在原有低延時、高音質(zhì)的基礎(chǔ)上,針對歌唱場景采用鏈路式多模組聯(lián)合算法框架,對人聲的音調(diào)、音色、韻律、節(jié)奏、空間、氛圍甚至藝術(shù)類型等不同維度進行調(diào)整,使歌聲更動聽、更契合伴奏,同時又能保留歌手聲音原有的特點。
支持多人實時合唱:
在單通合唱的方案中只能支持兩個人,而聲網(wǎng)的實時合唱解決方案中每一個合唱端相互獨立,互不影響,合唱人數(shù)可支持兩人以上。同時若是在合唱過程中其中一個端出現(xiàn)問題,也不會影響到其他合唱端和觀眾端的體驗與效果。
伴奏精準同步:
為了實現(xiàn)最好實時合唱的效果,讓各端可以在各自BGM的伴奏下一同歌唱。我們在主唱發(fā)起播放BGM請求后,會讓主播端等待一個與合唱端之間的延時,以此實現(xiàn)各方伴奏的精準同步。
50ms超低延時耳返優(yōu)化
不管是直播唱歌還是在線K歌,低延時的耳返功能對于唱歌體驗都有著很關(guān)鍵的作用,可幫助用戶通過耳機實時聽到麥克風采集到的聲音和播放的伴奏,來判斷自己的聲音是不是走音,這個對延時要求特別高。
對此,Agora SDK提供統(tǒng)一接口的低延時K歌耳返功能,通過與手機廠商的深度技術(shù)合作,可為K歌、直播類App提供適配不同手機品牌、不同手機機型的耳返應用,我們將傳統(tǒng)耳返100-300毫秒的延時降低至50ms以內(nèi),結(jié)合實時合唱整體解決方案,實現(xiàn)超低延時、超低噪聲、極致音效的耳返體驗,全面提升K歌的體驗。
歌詞同步+音浪頻譜
歌詞同步可以實現(xiàn)音頻與歌詞在播放端同步展示,并且音頻與歌詞逐字對齊,企業(yè)開發(fā)者無需在進行額外同步處理。而音浪頻譜可以幫助歌唱者及時調(diào)整自己的音調(diào),系統(tǒng)也能根據(jù)音浪頻譜的完成度對歌唱者進行打分。專業(yè)的在線K歌應用自身已經(jīng)具備成熟的歌詞同步、音浪頻譜等功能,但對于想在已有應用中加入在線KTV功能的創(chuàng)業(yè)公司或者開發(fā)者而言,聲網(wǎng)的實時合唱解決方案自帶歌詞同步、音浪頻譜等功能,將幫助開發(fā)者節(jié)省開發(fā)成本、保證體驗。
實時合唱覆蓋線上線下 為企業(yè)帶來多重價值
在線社交實時合唱,用戶、營收雙增長:1、用戶拉新、提升活躍度與留存:實時合唱作為最新的在線KTV玩法,無疑可以作為產(chǎn)品新玩法賣點,帶來更多想要體驗的新用戶。同時,實時合唱的創(chuàng)新玩法解決了傳統(tǒng)錄制合唱、單通道合唱的痛點,也會激發(fā)很多喜歡合唱的老用戶積極參與,提升用戶活躍度與留存率。
2、帶來更多營收空間:在線K歌與社交平臺也可以基于實時合唱的功能,探索出更多商業(yè)價值,提升營收空間。
智能電視K歌合唱,娛樂互動升級:經(jīng)過與電視廠商的技術(shù)打磨,聲網(wǎng)的實時合唱解決方
案還支持電視端,用戶可在家中通過智能電視大屏與好友進行線上的實時合唱。對于電視廠商而言,實時合唱的加入也讓智能電視的娛樂互動玩法更豐富。
線下KTV異地合唱,打破空間限制:實時合唱還可以助力線下傳統(tǒng)KTV或商場迷你KTV的互通聯(lián)動,讓多地的好友可以在線下不同地點一起K歌合唱,提升消費者K歌娛樂體驗,推動線下KTV娛樂創(chuàng)新發(fā)展。
?
“咪噠”技術(shù)負責人表示:可落地的實時合唱技術(shù)方案此前在行業(yè)一直處于空白,聲網(wǎng)憑借深厚的技術(shù)底蘊以及對創(chuàng)新場景的洞察力,與咪噠一起打磨出了行業(yè)首個完整的實時合唱解決方案,低失真,超低延時的技術(shù)保障為用戶帶來最佳的實時音頻體驗,咪噠在全國線下的迷你KTV中即將率先上線實時合唱的新玩法,實時合唱未來將給線上、線下K歌行業(yè)帶來新的活力。
目前聲網(wǎng)實時合唱iOS端Demo已率先上線,如果您想進一步體驗聲網(wǎng)實時合唱Demo,可通過聲網(wǎng)的微信公眾號找到這篇文章,并點擊文章中的“閱讀原文”留下您的信息,我們將提供實時合唱Demo的下載地址。
在本文中我們分析了實時合唱面臨的技術(shù)難點,并介紹了聲網(wǎng)實時合唱解決方案的架構(gòu)以及核心技術(shù)優(yōu)勢,如果您想進一步了解聲網(wǎng)是如何優(yōu)化音頻傳輸過程中的延時、編解碼、丟包、抖動等一系列技術(shù)難點,可查閱聲網(wǎng)微信公眾號此前發(fā)布的音頻技術(shù)系列文章。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )