谷歌最近發布了一項名為 “Vlogger” 的新視頻框架,可以通過僅一張圖片和錄音即可生成一個本人演講視頻。
這一框架基于擴散模型,包含音頻到人體動作和文本到圖像模型兩部分。其中,音頻波形被用來生成人物的身體控制動作,包括眼神、表情、手勢等,使生成的視頻看起來自然且生動。該模型訓練在一個包含80萬個人物視頻的大型數據集上完成。
Vlogger 的突出之處在于其多樣性和完整性。與其他方法相比,Vlogger 不需要對每個人進行訓練,也不依賴于面部檢測和裁剪,生成的視頻包括面部、唇部和肢體動作等。此外,Vlogger 還具有視頻編輯和翻譯等應用,能夠讓人物閉嘴、閉眼,甚至進行視頻翻譯。
雖然谷歌尚未發布具體模型,但通過展示效果和論文,可以看到 Vlogger 在視頻生成領域的潛力和優勢。然而,一些網友對其生成視頻的畫質、口型對不上等問題提出了質疑和吐槽。盡管如此,Vlogger 的發布仍引起了業界的廣泛關注和討論。
谷歌發布的 Vlogger 模型為視頻生成領域帶來了新的可能性,具備多樣性和自然性,為視頻編輯和翻譯等應用提供了新的解決方案。隨著技術的不斷進步和完善,相信 Vlogger 將在未來有更廣泛的應用和發展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。