今天凌晨,路透社消息,阿里巴巴確定與蘋果合作,為中國iPhone提供AI服務。
同時,阿里巴巴集團董事會主席蔡崇信,在迪拜舉行的世界政府峰會上,也親口確定了該消息。阿里巴巴股票大漲8%,創三年以來新高。
蔡崇信表示,由于監管等問題,蘋果需要尋找一個中國本土的科技企業進行合作,為其手機提供服務。蘋果一直非常謹慎、嚴格,他們與中國的多家科技公司進行了談判,最終選擇了我們。
此前,蘋果曾找過百度以及爆火的DeepSeek,但由于技術等原因最終放棄轉向阿里巴巴。
阿里巴巴作為國內最大互聯網公司之一,在云計算、大數據、AI等領域有著深厚的積累和技術優勢。其自研的Qwen系列多模態大模型,是全球下載和使用量最高的開源模型之一,在電商、翻譯、智能客服、物流、語音助手、監控等場景中表現非常出色。
在智能語音交互方面,阿里巴巴發布的Qwen2-Audio語音模型對中文語義理解的深度優化和準確率,可以強化蘋果的Siri助手,能實現更精準、更智能的語音交互。用戶可以通過簡單的語音指令,讓Siri完成查詢信息、購物下單、設備控制等復雜操作。
Qwen2-Audio使用了阿里自研的大模型Qwen-7B作為語言模型,能根據輸入的音頻和文本數據生成相應的文本輸出。主要與音頻模塊協同工作,實現對音頻信息的理解和處理。
當音頻編碼器對輸入的音頻信號進行特征提取后,這些特征會與之前的文本序列一起輸入到大語言模型中,會對這些信息進行綜合分析,理解音頻中所包含的語言內容和語義信息。
例如,如果輸入的音頻是一段對話,大語言模型會嘗試理解對話的主題、參與者的意圖以及情感傾向等。
在生成文本輸出時,大語言模型會根據對輸入信息的理解,通過其所學到的語言知識和模式,生成準確的文本回復。
此外,Qwen2-Audio采用了16kHz的采樣頻率,并將原始波形轉化為128通道的mel譜圖,通過25ms窗口大小和10ms跳幀,確保了音頻特征的時間分辨率與頻譜信息的完整性。
在手機交互方面,阿里巴巴前不久發布的視覺多模態大模型Qwen2.5-VL,可以作為一個視覺 Agent來自動化操作電腦、手機。例如,根據你的行程日期,自動幫你預訂飛機票。
此外,Qwen2.5-VL還能理解超過1小時的長視頻,并且能定位特定時間點發生的事件。例如,在安防領域,能快速定位到有人闖入、火災發生等關鍵事件的視頻片段,可極大節省審閱視頻的時間。
同時Qwen2.5-VL也增強了其通用圖像識別能力,大幅擴大了可識別的圖像類別量級。不僅包括植物、動物、著名山川的地標,還包括影視作品中的IP以及各種各樣的商品。
精準的視覺定位,Qwen2.5-VL 采用矩形框和點的多樣化方式對通用物體定位,可以實現層級化定位和規范的 JSON 格式輸出。這也為復雜場景中的視覺 Agent 進行理解和推理任務提供了強大基礎。
超長的視頻理解能力,Qwen2.5-VL 升級了視頻理解能力,通過動態幀率(FPS)訓練和絕對時間編碼技術,能理解超長視頻,定位秒級事件,還能在長視頻中搜索具體事件、總結不同時段要點,幫用戶快速提取關鍵信息。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。