騰訊混元公眾號今日發文宣布開源混元語音數字人模型,僅需一張圖和一段音頻,就能讓圖中的主角自然地說話、唱歌。
此次發布的并開源的語音數字人模型 HunyuanVideo-Avatar,由騰訊混元視頻大模型(HunyuanVideo)及騰訊音樂天琴實驗室 MuseV 技術聯合研發,支持頭肩、半身與全身景別,以及多風格、多物種與雙人場景,面向視頻創作者提供高一致性、高動態性的視頻生成能力。
用戶可上傳人物圖像與音頻,HunyuanVideo-Avatar 模型會自動理解圖片與音頻,比如人物所在環境、音頻所蘊含的情感等,讓圖中人物自然地說話或唱歌,生成包含自然表情、唇形同步及全身動作的視頻。
HunyuanVideo-Avatar 適用于短視頻創作、電商與廣告等多種應用場景,可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產品介紹視頻或多人互動廣告,降低制作成本。
HunyuanVideo-Avatar 的單主體能力已經開源,并在騰訊混元官網上線,用戶可以在“模型廣場-混元生視頻-數字人-語音驅動-HunyuanVideo-Avatar”中體驗,目前支持上傳不超過 14 秒的音頻進行視頻生成,后續將逐步上線和開源其他能力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。