谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態擴散模型,能夠自動生成帶語音、豐富動作的人物視頻。用戶只需向 VLOGGER 輸入圖像和語音,就可以獲得逼真的視頻效果。
VLOGGER 的創新之處在于采用了全新的多階段擴散模型架構,結合了文本生成圖像模型和時空控制,從而提升了視頻生成的逼真效果和豐富動作。研究人員在多個數據集上對 VLOGGER 進行了綜合測試,結果顯示 VLOGGER 在視頻質量、物體還原性和時序一致性等方面表現出色,同時還能生成豐富的上半身和手勢動作。
要制作逼真的人物動畫視頻通常需要大量的人工調整和修補,以確保動作流暢自然。而 VLOGGER 的創新之處在于,其無需針對每個新人物重新訓練模型,也不依賴于人臉檢測框選區域,直接生成完整目標圖像。此外,VLOGGER 還考慮到了現實中復雜的交流場景,如可見軀干、不同身份等因素,這對正確合成有效交流的人物動作至關重要。
在技術實現方面,VLOGGER 首先通過 Transformer 神經網絡處理音頻波形輸入,生成一系列3D 面部表情和身體姿勢參數,用于控制虛擬人物在視頻中的動作。其次,在空間和時間上進行條件控制,生成高質量、任意長度的視頻。VLOGGER 還引入了一種 "時序外推" 的技術,允許模型迭代生成任意長度的視頻片段,同時保持時序一致性。為了提高生成效果,VLOGGER 還采用了級聯擴散方法,對基礎分辨率的視頻進行超分辨重建,生成高質量的影像。
VLOGGER 的推出為虛擬數字人的制作提供了更便捷、高效的解決方案,同時也在多模態視頻生成領域取得了重要的技術突破。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。