視頻合成最近取得了顯著的進步,這得益于擴散模型的快速發展。然而,它在語義準確性、清晰度和時空連續性方面仍然存在挑戰。它們主要源于文本-視頻數據的稀缺性和視頻的復雜固有結構,使得模型難以同時確保語義和定性的卓越性。
阿里巴巴、浙江大學和華中科技大學的研究人員提出了一種級聯的 I2VGen-XL 方法,該方法通過解耦這兩個因素來增強模型性能,并通過利用靜態圖像作為關鍵指導形式來確保輸入數據的對齊。
I2VGen-XL 由兩個階段組成:
i) 基礎階段通過使用兩個分層編碼器來保證連貫的語義并保留輸入圖像中的內容。
ii) 細化階段通過合并額外的簡短文本來增強視頻的細節,并將分辨率提高到1280x720。
目前文本到視頻合成的主要挑戰之一是高質量視頻文本對的收集。為了豐富 I2VGen-XL 的多樣性和魯棒性,研究人員收集了一個龐大的數據集,其中收集了大約3500萬個單鏡頭文本-視頻對和60億個文本-圖像對來優化模型。通過這種方式,I2VGen-XL可以同時提高語義的準確性、細節的連續性和生成視頻的清晰度。
所提出的模型利用潛在擴散模型(LDM),這是一種生成模型類,可以學習擴散過程來生成目標概率分布。在視頻合成的情況下,LDM逐漸從高斯噪聲中恢復潛在目標,保留視覺流形并重建高保真視頻。I2VGen-XL采用LDM(簡稱VLDM)的3D UNet架構,以實現有效且高效的視頻合成。
細化階段對于增強空間細節、細化面部和身體特征以及減少局部細節中的噪聲至關重要。研究人員分析了頻域細化模型的工作機制,強調了其在保留低頻數據和提高高清視頻連續性方面的有效性。
在與 Gen-2和 Pika 等頂級方法的實驗比較中,I2VGen-XL 展示了更豐富、更多樣化的運動,強調了其在視頻生成方面的有效性。研究人員還對人臉、3D卡通、動漫、中國畫、小動物等多種圖像進行了定性分析,展示了該模型的泛化能力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。