阿里通義實驗室近日發布了一款名為 “OmniTalker” 的新型數字人視頻生成大模型。這一創新模型的核心在于其能夠通過上傳一段參考視頻,實現對視頻中人物的表情、聲音和說話風格的精準模仿。相較于傳統的數字人制作流程,OmniTalker 顯著降低了制作成本,同時提升了生成內容的真實感和互動體驗,滿足了廣泛的應用需求。
OmniTalker 的使用十分簡便,用戶只需在平臺上上傳一段參考視頻,就能生成與之同步的音頻和視頻內容。目前,該項目已在魔搭社區和 HuggingFace 等平臺開放體驗,并提供了多種模板供用戶自由使用,完全免費。為了讓人們更直觀地感受到這一技術的強大,阿里通義實驗室展示了幾段示例視頻,觀眾幾乎無法分辨出視頻中的人物是由 AI 生成的還是實拍的,這讓人感到震撼。
該模型的研發背景源于近年來語言大模型的迅猛發展,虛擬主播和虛擬助手的應用越來越廣泛。然而,以往的文本驅動數字人生成研究相對較少,且傳統方法通常采用級聯流水線的方式,容易導致音畫不同步、說話風格不一致等問題。OmniTalker 通過引入雙分支 DiT 架構,能夠同時從文本和參考視頻中生成同步的語音和視頻,從而克服了這些技術瓶頸。
在模型結構方面,OmniTalker 的設計由三大核心部分構成。首先,模型能夠提取音頻特征和視覺特征,確保兩者在時間上的完美同步;其次,采用多模態特征融合模塊,提升了音頻和視頻的整合效果;最后,經過預訓練的解碼器能夠高效將合成的音視頻特征轉換為原始格式,保證輸出的高質量。
通過實驗數據的對比,OmniTalker 在音頻生成和視覺效果方面都表現出色,顯示出更低的錯誤率和更高的聲音相似度,進一步證明了其在零樣本條件下的強大能力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。