在文本到音樂合成領域,生成內容的質量一直在提高,但對音樂方面的可控性仍未得到探索。新加坡科技與設計大學和倫敦瑪麗女王大學的研究人員提出了一個名為 Mustango 的解決方案,它擴展了 Tango 文本到音頻模型,旨在通過豐富的說明來控制生成的音樂,這些說明包含與和弦、節拍、速度和鍵相關的具體指令。
研究人員將 Mustango 介紹為一種基于擴散模型的音樂領域知識啟發的文本到音樂系統。他們強調了從擴散模型直接生成音樂所面臨的獨特挑戰,強調了在與條件文本對齊和音樂性之間取得平衡的需求。Mustango 使音樂家、制作人和音效設計師能夠根據特定條件(如和弦進行、速度和鍵選擇)創建音樂片段。
作為 Mustango 的一部分,研究人員提出了 MuNet,即音樂領域知識啟發的 UNet 子模塊。MuNet 將音樂專用功能與從文本提示中預測的功能集成到擴散去噪過程中。為了克服現有帶有音樂和文本說明的開放數據集的有限可用性,研究人員引入了一種新穎的數據增強方法。該方法涉及改變音樂音頻的和諧、節奏和動態方面,并使用音樂信息檢索方法提取音樂特征,然后將這些特征附加到現有的文本描述中,從而得到 MusicBench 數據集。
MusicBench 數據集包含超過52,000個實例,通過將節拍、下拍位置、基本和弦進行、鍵和速度添加到原始文本描述中,豐富了數據集。研究人員進行了廣泛的實驗,證明了 Mustango 在音樂質量方面達到了最新的水平。他們強調了 Mustango 通過音樂專用文本提示的可控性,展示了在捕捉多個數據集中所需的和弦、節拍、鍵和速度方面的出色性能。他們評估了這些預測器在沒有控制句子的情況下的適應能力,并觀察到 Mustango 在這種情況下的表現優于 Tango,表明控制預測器不會影響性能。
實驗包括與 Tango 和 Mustango 的變體等基線的比較,證明了所提出的數據增強方法在提高性能方面的有效性。從頭開始訓練的 Mustango 被認為是表現最好的模型,在音頻質量、節奏存在和諧等方面超過了 Tango 和其他變體。Mustango 擁有14億個參數,比 Tango 多得多。
研究人員將 Mustango 作為文本到音樂合成領域的重要進展。他們解決了現有系統中的可控性差距,并通過廣泛的實驗證明了他們提出的方法的有效性。Mustango 不僅實現了最新的音樂質量,還提供了增強的可控性,為該領域的發展做出了寶貴的貢獻。研究人員發布了 MusicBench 數據集,為未來的文本到音樂合成研究提供了資源。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。