阿里云今日凌晨推出新一代端到端多模態模型Qwen2.5-Omni,并在Hugging Face、ModelScope等平臺開源。
該模型采用創新的Thinker-Talker架構,能無縫處理文本、圖像、音頻和視頻輸入,并實時生成文本及語音輸出。
Qwen2.5-Omni通過TMRoPE技術實現音視頻精準同步,在實時交互與語音生成方面表現優異。
測試顯示,其性能超越同類單模態模型及部分封閉源模型,在OmniBench多模態任務中達到SOTA水平,同時在語音識別、翻譯、圖像推理等單模態任務中表現突出。
阿里云表示,Thinker模塊負責多模態語義理解,Talker模塊則實現流式語音合成,形成高效統一的架構。目前,模型已在多個平臺開放體驗。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。