亚洲精品一区二区三区四区乱码,一区二区三区无码视,av无码不卡在线观看免费

近日，網(wǎng)易云音樂(lè)2篇論文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入選ICASSP2023，論文提出的兩種算法模型均優(yōu)于現(xiàn)有最先進(jìn)模型。

一種是歌唱評(píng)價(jià)算法模型TG-Critic，利用它可以僅依靠一段演唱音頻判斷歌手演唱水平，實(shí)驗(yàn)結(jié)果表明，算法模型評(píng)估的歌曲與人工專家評(píng)價(jià)“演唱水平好”的歌曲，相似度達(dá)91%;另一種是識(shí)別圖像樂(lè)譜的算法模型，通過(guò)模型識(shí)別圖片中的五線譜，實(shí)驗(yàn)結(jié)果在復(fù)音樂(lè)譜上的錯(cuò)誤率最高也僅為2.1%。

據(jù)了解，ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議，是IEEE主辦的全世界最大的，也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議，在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。此次入選，代表了網(wǎng)易云音樂(lè)在國(guó)際舞臺(tái)上，展示出了在音樂(lè)音頻領(lǐng)域的技術(shù)實(shí)力。

而且憑借在音樂(lè)技術(shù)領(lǐng)域的積累創(chuàng)新，網(wǎng)易云音樂(lè)也不斷將前沿領(lǐng)域研究成果應(yīng)用于實(shí)踐。依靠目前準(zhǔn)確率最高的歌曲質(zhì)量評(píng)價(jià)算法，歌唱評(píng)價(jià)將不再依賴人力手工準(zhǔn)備模板物料，歌手也不再需要模仿模板以獲取高分，更鼓勵(lì)歌手的個(gè)性化演繹。而且相比卡拉ok中的傳統(tǒng)歌唱評(píng)價(jià)，該模型未來(lái)將用于更加豐富的使用場(chǎng)景，如歌曲分發(fā)、優(yōu)質(zhì)歌手挖掘、聲音社交等等領(lǐng)域。而利用識(shí)別圖像樂(lè)譜的算法模型，可以將模糊的圖片樂(lè)譜準(zhǔn)確識(shí)別，方便轉(zhuǎn)換為利用率更高的格式，服務(wù)于音樂(lè)人、用戶在欣賞、教育、創(chuàng)作等場(chǎng)景的需要。

三大技術(shù)創(chuàng)新拆解“開(kāi)口跪”，將全球最優(yōu)算法準(zhǔn)確率至少提升4%

當(dāng)歌唱老師和專家聽(tīng)到一首歌，就能迅速可以判斷出歌手的演唱水平，而普通人則會(huì)用“開(kāi)口跪”表達(dá)夸贊。當(dāng)人們?cè)u(píng)價(jià)歌聲質(zhì)量時(shí)，人聲的音色是影響判斷的重要因素。受其啟發(fā)，網(wǎng)易云音樂(lè)首創(chuàng)提出了一個(gè)音色為指導(dǎo)的歌唱評(píng)價(jià)模型：TG-Critic，將全球最優(yōu)算法準(zhǔn)確率提升4%以上。

據(jù)介紹，網(wǎng)易云音樂(lè)音頻實(shí)驗(yàn)室在歌唱評(píng)價(jià)模型的設(shè)計(jì)過(guò)程中引入了三個(gè)主要?jiǎng)?chuàng)新點(diǎn)：

1.首次在模型中顯式引入音色信息輔助歌聲評(píng)價(jià)：研究表明，歌手的"音色"是影響人們對(duì)于歌聲感受的重要因素。但不同于音準(zhǔn)、節(jié)奏等較為簡(jiǎn)單的屬性，音色是一系列復(fù)雜而抽象的感受的集合，因此其提取過(guò)程更為復(fù)雜，更難被模型直接捕捉到。至今為止的歌聲自動(dòng)評(píng)價(jià)系統(tǒng)中，還沒(méi)有研究聚焦音色特征對(duì)于模型預(yù)測(cè)的影響。為了填補(bǔ)這一空缺，團(tuán)隊(duì)創(chuàng)新性地使用原本為“歌手識(shí)別”任務(wù)設(shè)計(jì)的預(yù)訓(xùn)練模型，提取與音色相關(guān)的高級(jí)特征，并將其用作歌聲評(píng)價(jià)模型的輸入。盡管這些特征原本并非為歌聲質(zhì)量設(shè)計(jì)，但是來(lái)自質(zhì)量標(biāo)簽為“好”和“差”的樣本的特征，在高維空間中分別呈現(xiàn)出較明顯的聚集現(xiàn)象，證明了其與歌聲質(zhì)量的相關(guān)性。

2.遷移高分辨率網(wǎng)絡(luò)結(jié)構(gòu)處理聲譜特征：除了音色特征輸入，團(tuán)隊(duì)從音頻樣本中提取CQT聲譜特征作為模型的主要輸入。為了解決卷積網(wǎng)絡(luò)局部性帶來(lái)的問(wèn)題，團(tuán)隊(duì)將圖像分割領(lǐng)域較為常用的“高分辨率網(wǎng)絡(luò)”遷移到歌聲評(píng)價(jià)任務(wù)中，分別通過(guò)高、中、低三個(gè)不同的分辨率分支分別處理特征。通過(guò)高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉長(zhǎng)距離信息(氣息穩(wěn)定性、音準(zhǔn)等)，從而實(shí)現(xiàn)保持高效性的同時(shí)，提升模型提取有用信息的能力。

3.提出循環(huán)自動(dòng)數(shù)據(jù)標(biāo)注降低人工成本：對(duì)于一個(gè)模型的訓(xùn)練，可靠的標(biāo)注數(shù)據(jù)尤為重要。團(tuán)隊(duì)收集了3萬(wàn)余條歌聲數(shù)據(jù)樣本，以及其對(duì)應(yīng)的機(jī)器打分(針對(duì)音準(zhǔn)、節(jié)奏等)、紅心數(shù)、評(píng)論數(shù)等可以一定程度反映歌聲質(zhì)量的元數(shù)據(jù)。通過(guò)一個(gè)循環(huán)迭代過(guò)程，只需要人工標(biāo)注其中小部分樣本，便能獲得足夠可靠的自動(dòng)數(shù)據(jù)標(biāo)簽，大大降低了標(biāo)注所需的人工成本。

實(shí)驗(yàn)結(jié)果表明，在各類公開(kāi)數(shù)據(jù)集上，網(wǎng)易云音樂(lè)提出的TG-Critic均達(dá)到國(guó)際最先進(jìn)水平，相比已有算法，準(zhǔn)確率提升至少4%，部分?jǐn)?shù)據(jù)集提升10%以上。而且應(yīng)用于網(wǎng)易云音樂(lè)業(yè)務(wù)測(cè)聽(tīng)的結(jié)果顯示：在音樂(lè)人業(yè)務(wù)：運(yùn)營(yíng)評(píng)估歌曲推薦值≥3共159首歌曲中，算法評(píng)價(jià)為“演唱水平好”共144首，準(zhǔn)確率達(dá)90.5%;在直播業(yè)務(wù)：運(yùn)營(yíng)提供100首算法判定“演唱水平好”歌曲的人工驗(yàn)證，準(zhǔn)確率91%;在500+全演唱水平分類實(shí)驗(yàn)中，準(zhǔn)確率81.2%。

據(jù)了解，TG-Critic歌曲質(zhì)量評(píng)價(jià)模型將進(jìn)一步減少人力依賴并擴(kuò)大應(yīng)用場(chǎng)景在直播、音樂(lè)人等內(nèi)容分發(fā)場(chǎng)景，可協(xié)助人工挑選優(yōu)質(zhì)內(nèi)容，可服務(wù)于作品審核、分發(fā)或推薦，優(yōu)質(zhì)歌手挖掘在社交、游戲等C端場(chǎng)景，可提供“開(kāi)口跪挑戰(zhàn)”等運(yùn)營(yíng)玩法。

懂AI又懂樂(lè)理，看圖識(shí)譜技術(shù)上的又一次突破

隨著深度學(xué)習(xí)方法的應(yīng)用，OCR(圖像文字識(shí)別 )近年得到了長(zhǎng)足的進(jìn)步，而OMR(圖像樂(lè)譜識(shí)別)卻始終處于研究應(yīng)用的初級(jí)階段。由于這個(gè)方向?qū)儆诮徊鎸W(xué)科，既要懂視覺(jué)算法又要懂樂(lè)理。目前市面上的商業(yè)或開(kāi)源軟件都不具備可用的準(zhǔn)確率。

因此，網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室采用基于端到端的算法識(shí)別路線，優(yōu)化識(shí)別流程：1)拿到一個(gè)樂(lè)譜圖片，檢測(cè)圖片中的曲譜位置坐標(biāo);2)提取曲譜區(qū)域，進(jìn)行曲譜識(shí)別，識(shí)別出樂(lè)譜中的內(nèi)容信息，如下圖：

針對(duì)該樂(lè)譜識(shí)別模型，網(wǎng)易云音樂(lè)音頻實(shí)驗(yàn)室也做了多方面的創(chuàng)新，大大提高了準(zhǔn)確性。例如，將Transformer引入到樂(lè)譜識(shí)別任務(wù)中，通過(guò)該結(jié)構(gòu)可以實(shí)現(xiàn)更大的感受野，有利于對(duì)長(zhǎng)序列進(jìn)行預(yù)測(cè)，提升識(shí)別準(zhǔn)確率;同時(shí)，將樂(lè)譜的信息維度將樂(lè)譜符號(hào)分為：樂(lè)譜符號(hào)全局表征+樂(lè)譜符號(hào)局部表征+音符音高。這樣的拆分方式更利于機(jī)器理解和學(xué)習(xí)。

值得注意的是，團(tuán)隊(duì)還精心設(shè)計(jì)了一套樂(lè)譜圖片拍攝的方案。為了收集大量真實(shí)的數(shù)據(jù)，使用手機(jī)作為拍照工具，模仿最真實(shí)的拍照?qǐng)鼍埃瑢?duì)明、暗光場(chǎng)景的紙質(zhì)樂(lè)譜進(jìn)行拍照，以及對(duì)顯示在顯示屏上的樂(lè)譜進(jìn)行拍照。

實(shí)驗(yàn)結(jié)果表示，網(wǎng)易云音樂(lè)的樂(lè)譜識(shí)別算法的準(zhǔn)確性已經(jīng)超過(guò)目前最好的端到端音樂(lè)譜識(shí)別方法，大幅降低錯(cuò)誤率。下圖中第一行為正確的樂(lè)譜識(shí)別結(jié)果，第二行為目前最好的復(fù)音樂(lè)譜識(shí)別方法的識(shí)別結(jié)果，第三行為本技術(shù)提出方案的識(shí)別結(jié)果，紅框標(biāo)記的為錯(cuò)誤區(qū)域。

據(jù)介紹，該方法可以準(zhǔn)確地將圖片樂(lè)譜轉(zhuǎn)換為midi、musicxml等格式，未來(lái)可用于音樂(lè)輔助教育、聽(tīng)歌搜譜等場(chǎng)景中，致力于在音樂(lè)欣賞、教育、創(chuàng)作等場(chǎng)景上，為音樂(lè)人、用戶提供更好的服務(wù)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

網(wǎng)易云音樂(lè)2篇論文入選ICASSP2023，AI歌聲評(píng)價(jià)、樂(lè)譜識(shí)別均超國(guó)際先進(jìn)水平

網(wǎng)易云音樂(lè)2篇論文入選ICASSP2023，AI歌聲評(píng)價(jià)、樂(lè)譜識(shí)別均超國(guó)際先進(jìn)水平