近日,火山語音發布了首位超寫實數字員工小燦,在同步推出的首秀TVC中,小燦憑借高效的工作能力以及溫暖可人的性格引起多方關注,她的到來將會引領怎樣的改變?

善聽會說能想:提升工作效率的好幫手
小燦作為火山語音團隊聯合朝夕光年江南團隊共同打造的S級超寫實數字人形象,名字源于“火山”兩字的結合,拼音“can”在英文中表示“可以、能夠”的意思,這也意味著小燦從“出生”就是工作的最佳輔助。雖然加入數字人產品矩陣不久,但小燦同樣依托團隊長期積累的成熟語音交互技術,具有語音識別、自然語言處理、情感識別等多種功能,傳承“善聽”、“會說”、“能想”的多重能力,能夠做到與用戶面對面實時交互來提供更加高效服務。

逼真情感表達:技術與人文兼具
盡管小燦是虛擬數字人,但火山語音團隊仍然通過強大的技術能力,幫助TA構筑了從外形、動作到語言、情感交互的超寫實形態。外形上,憑借團隊3D超寫實數字人整套形象設計、資產制作、高成本影視級cg管線視頻內容的制作能力,讓小燦無論在外形動作,還是面部微表情抑或是皮膚肌理、發絲材質等各方面高度逼真,深度還原了真人影像,改變了大眾對數字人的一貫認知。

除卻精致的外在,小燦通過火山語音團隊豐富且領先的對數字人AI的驅動能力,實現了更加近似真人的口型動作表現。例如AI驅動口型方面,團隊通過使用行業領先的非自回歸模型的唇形生成網絡,合成與輸入文本或語音完全匹配的唇形,準確率高達98.55%。

“在AI驅動動作上,我們基于創新的Motion Blening技術,在動作切換時可生成過度幀,使數字人在切換各類動作時不僅可以做到毫秒級切換,還可以做到平滑效果自然無感知。”除此之外還在AI表情口型聯合建模,基于語音語義的動作生成即co speech技術上,都有極具前瞻性的預研工作,并已取得階段性成果,后續將全部應用于數字人視頻創作、交互以及直播等場景。
值得提及的是,小燦還具備“一條音頻秒級別音色復刻”(zero shot TTS)的能力,可以做到高保真還原真人音色、說話風格以及聲學環境等特點,在核心技術架構全自研的基礎上,關鍵指標均保持業界前沿。此外韻律模塊基于自回歸GPT類大模型,目前訓練數據超過20萬個小時,架構可擴展性很強,未來預計可支持100萬小時以上數據訓練;模塊支持code-switch,即無論prompt為中文或者英文,都可支持直接輸出中文、英文及混合內容。整體來說,小燦無疑是目前數字人研發領域藝術與技術高度融合的產物,但她不僅僅是一個超寫實數字人形象,更是高效且有溫度解決問題的好幫手。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。