極客網(wǎng)·人工智能12月4日 英偉達(dá)已經(jīng)成為AI時代的領(lǐng)頭羊,除了賣GPU,它自己也在開發(fā)大語言模型。最近,英偉達(dá)開發(fā)的Fugatto模型曝光,它將最新的AI訓(xùn)練方案與技術(shù)融合,可以以之前未曾見過的方式處理音樂、語音及其它聲音,創(chuàng)造出從未有過的聲音。
語音生成AI模型沒有什么稀奇的,市場上已經(jīng)有很多,輸入文本提示詞就可以合成語音和音樂,但Fugatto似乎比之前的語音AI模型更進(jìn)一步。
目前Fugatto還沒有公測,英偉達(dá)只是通過網(wǎng)站公布一些語音生成樣本。從樣本看,F(xiàn)ugatto可以調(diào)節(jié)音頻特征,生成一些奇怪的聲音,比如讓薩克斯聲音像狗叫,讓人聲變得像水下發(fā)出的聲音。老實說,合成的聲音并不怎么動聽,但很有趣。
英偉達(dá)研究人員Rafael Valle說:“我們想創(chuàng)建一個模型,它可以像人一樣理解聲音、生成聲音?!?/p>
從技術(shù)角度看,F(xiàn)ugatto實際上是一個生成Transformer模型,它是基于英偉達(dá)之前研究的技術(shù)開發(fā)的,比如語音模型、聲音理解技術(shù)。Fugatto擁有25億個參數(shù),它是用英偉達(dá)DGX系統(tǒng)開發(fā)的。
英偉達(dá)在論文中談到Fugatto開發(fā)的難點。以當(dāng)前的技術(shù),根據(jù)音頻和語言之間有意義的聯(lián)系建立一個數(shù)據(jù)庫十分困難?,F(xiàn)在的標(biāo)準(zhǔn)語言模型可以從文本數(shù)據(jù)中推斷出不同的指令,但如果沒有具體指引,模型很難從音頻中總結(jié)出特征。
最終,英偉達(dá)用LLM(大語言模型)生成一個Python腳本,它可以創(chuàng)建大量基于模板、格式自由的指令,這些指令可以描述不同的聲音“個性”,比如標(biāo)準(zhǔn)、年輕、30多歲、專業(yè)人士等特征,然后還可以給聲音的“個性”增加其它指令,比如絕對指令(合成一個快樂的聲音)和相對指令(增強(qiáng)聲音的快樂度)。
在訓(xùn)練數(shù)據(jù)中,AI會學(xué)著理解聲音的不同特征,然后將不同的特征結(jié)合起來,生成全新的聲音,也就是我們?nèi)祟愔皼]有聽過的聲音。
論文談到的技術(shù)相當(dāng)復(fù)雜??傊ミ_(dá)開發(fā)了所謂的ComposableART系統(tǒng),它合成的聲音讓小提琴聲音像孩子的笑聲,讓五弦琴的聲音像音樂家在風(fēng)雨中演奏,讓工廠機(jī)器發(fā)出金屬般的痛苦尖叫。
Fugatto混合聲音的能力給人留下深刻印象,要知道,聲音數(shù)據(jù)來自不同的開源平臺數(shù)據(jù)集,聲音之間有很大不同,將它們完美混合不是一件易事。
還有一點值得表揚(yáng),F(xiàn)ugatto將每個單獨的音頻特征視為可調(diào)諧的連續(xù)體。比如,F(xiàn)ugatto可以將吉它聲和流水聲混合,讓吉它聲權(quán)重高一些或者讓流水聲權(quán)重高一些,合成的聲音是完全不同的。又例如,F(xiàn)ugatto可以讓說話時的法語口音重一些或者輕一些,可以改變語音片斷中的悲傷程度。
Fugatto還有其它一些功能,這些功能之前的模型也有,比如改變語音中的情緒,從音樂中分離出人聲。
英偉達(dá)希望Fugatto能成為聲音藝術(shù)家的新工具,它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說:“音樂的歷史實際上就是科技的歷史。電吉它帶來了搖滾,當(dāng)采樣器出現(xiàn),嘻哈隨即誕生。有了AI,我們可以書寫音樂的下一篇章。我們有了一種新的樂器,一種制作音樂的新工具,這太令人興奮了?!?/p>
你覺得這樣的工具有趣嗎?(小刀)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )