Stability AI聯合芯片巨頭Arm正式開源Stable Audio Open Small,一款專為移動設備優化的341M參數文本到音頻生成模型。這款輕量化模型能在Arm CPU上本地運行,生成高質量立體聲音頻,標志著AI音頻生成技術向邊緣計算和移動設備的重大邁進。
技術亮點:輕量高效,移動端本地生成
Stable Audio Open Small基于Stability AI此前發布的Stable Audio Open模型,通過深度優化,參數量從1.1B壓縮至341M,顯著降低了計算需求。得益于Arm的KleidiAI庫支持,模型能在智能手機上以不到8秒的速度生成最長11秒的44.1kHz立體聲音頻,無需云端處理,適合離線場景。
該模型采用潛在擴散模型(Latent Diffusion Model),結合T5文本嵌入和基于變壓器的擴散架構(DiT),通過簡單的英文文本提示(如“128BPM電子鼓循環”或“海浪拍岸的聲音”)即可生成音效、鼓點、樂器片段或環境音。AIbase測試表明,模型在生成短音頻片段時細節豐富,尤其適合音效設計和音樂制作。
開源與許可:賦能開發者與創作者
Stable Audio Open Small遵循Stability AI社區許可,對研究人員、個人用戶及年收入低于100萬美元的企業免費開放,模型權重和代碼已在Hugging Face和GitHub上發布。 大型企業需購買企業許可,確保技術在商業化中的可持續性。這種分級許可策略降低了技術門檻,鼓勵全球開發者探索音頻生成應用。
此外,模型訓練數據全部來自Freesound和Free Music Archive的免版稅音頻,確保了版權合規性,規避了如Suno和Udio等競爭對手因使用受版權保護內容而引發的風險。
性能與創新:ARC后訓練提升效率
Stable Audio Open Small引入了對抗性相對對比(ARC)后訓練方法,無需傳統蒸餾或無分類器指導,結合相對對抗損失和對比鑒別器損失,顯著提升了生成速度和提示遵循性。研究顯示,模型在***GPU上生成12秒音頻僅需75毫秒,在移動設備上約7秒,且在CLAP條件多樣性得分上達到0.41,位居同類模型之首。
主觀測試中,模型在多樣性(4.4)、質量(4.2)和提示遵循性(4.2)上均獲得高分,展現了其在生成音效和節奏片段方面的優異表現。 其Ping-Pong采樣技術進一步優化了少步推理,兼顧速度與質量。
行業意義:推動移動AI與創意民主化
Stable Audio Open Small的發布標志著AI音頻生成技術向移動端和邊緣計算的轉型。與依賴云處理的競爭對手不同,該模型的離線運行能力為移動場景(如實時音效生成)提供了便利,覆蓋全球99%的智能手機用戶。 AIbase分析認為,這種技術普及將重塑音頻創作生態,讓普通用戶也能參與專業級音效設計。
然而,模型也存在局限性:僅支持英文提示,對非西方音樂風格的表現較弱,且無法生成逼真的人聲或完整歌曲。 Stability AI表示,未來將優化多語言支持和音樂風格多樣性,以提升全球適用性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。