僅僅不到30天,一些企業就已走過DeepSeek嘗鮮階段,從一體機,急速轉向推理集群。
DeepSeek爆火之后,進展之快,讓業界應接不暇。
春節開工后首月,政務、金融、教育、醫療等千行百業掀起嘗鮮浪潮。根據愛分析的統計,截止2月21日,已有約45%的央國企部署了DeepSeek模型。不少企業都是快速買一兩臺一體機,來體驗DeepSeek的效果。這讓一體機商機幾乎是以往的百倍,呈現井噴。
但僅僅不到30天,一些企業就已走過嘗鮮階段,從開箱即用的DeepSeek一體機,急速轉向可支撐高并發、低時延的大規模專家并行(EP)推理集群。
在這場算力迭代角逐中,昇騰大規模跨節點專家并行(大EP)方案,因對DeepSeek模型的支持及在技術思路上的契合,成為國內企業的主要選擇。英偉達H20因算力短板和出口管制等不確定因素,面臨挑戰。
01
企業推理需求激增,算力擴容
隨著DeepSeek引發的人工智能熱潮,中國企業正加速AI部署。
開年不到一個月,一些企業就已走過試用階段,開始探討算力擴容問題。比如,一些企業先接入DeepSeek,嘗鮮通用能力,之后開始將業務系統對接DeepSeek,結果用戶增長快速,并發量越來越大。在這種情況下,一臺一臺增加一體機的線性擴展方式,已經不滿足他們的需求。
DeepSeek推動產業進入一個新階段——當企業應用開始上量后,對推理部署提出了在高并發、低時延場景下,要實現高性價比、穩定的要求。
隨著應用上量,目前市場上用戶推理算力的規模,從早期一兩臺一體機,即8卡、16卡規模,正在快速擴展到大幾十卡、一兩百卡以及千卡。而隨著應用范圍的擴大,推理算力的規模還在持續擴大中。
為什么這輪企業推理需求會持續急劇擴大?
非常重要的一點是,DeepSeek給千行百業帶來了信心——哪怕算力受限,依然能夠做出一流的模型。DeepSeek也開源了模型,很多企業有信心在強大的基礎大模型之上,實現人工智能的真正落地,這帶來了新一輪的百模千態。
DeepSeek借助MoE(混合專家模型)技術,通過大EP并行(大規模跨節點專家并行)和超集群互聯技術,成功降低了對高算力單卡的依賴。
DeepSeek也開辟了新的訓練模式,讓企業應用大模型的路徑縮短了。以前搭建一個智能化平臺,架構復雜、成本高昂。DeepSeek讓大家發現,原來二次訓練沒有那么復雜。從一些社區熱議的外掛知識庫,到先將模型蒸餾,再通過強化學習而不是之前的微調和RAG,也能將自身數據訓練到模型上去,這些過程比原來要快很多,所需的行業數據也至少少一個數量級,從而帶動企業快速做出場景。
客戶對AI的認知也發生了徹頭徹尾的變化。以前是大模型企業到客戶那里去“拿著錘子找釘子”,現在是客戶一下子拿出好多場景,主動要求做更多。
由于上述因素,千行百業以更快速度擁抱DeepSeek,企業進入DeepSeek與業務結合的階段。接下去,越來越多的智能體也將涌現,甚至業務系統與DeepSeek的對接,以及智能體的推廣是并行的。未來三個月,我們將看到不斷變革的過程。而這都要求智算市場做出及時反應,快速支撐。
02
DeepSeek開源周后,推理集群怎么選
就在業界對推理算力提出更高要求的時候,DeepSeek于2025年2月底舉辦了“開源周”活動,連續五天每天發布一個開源項目。
這些開源項目涉及大模型全流程。在推理加速上,DeepSeek也開源了不少技術。而人們發現,這些實踐都是在200多臺服務器集群環境下做出的,規模遠比企業目前一兩臺一體機要大得了。這也與當下企業推理擴容的方向一致。
值得關注的是,DeepSeek模型采用的MoE架構,有大專家和小專家模式之分。大專家類似全科大夫,管的事情多,因此每個token激活的參數量多,計算量大,成本也高,走性能摸高之路。
DeepSeek則采用了小專家模式,如V2有160個專家,V3有256個專家,每次激活的參數量小,成本降低,在性能提升的同時,更有利于快速普及,而這兩種方案將共存。
DeepSeek的推理集群,也貼合了小專家MoE架構,是一種大規模跨節點專家并行(簡稱大EP并行)的方式。
它將眾多小專家分布到更多的卡上,如DeepSeek-R1推理集群,每卡部署 1~2個專家,每張卡占用的資源減少了,大量資源可用來支持更多并發用戶,也降低了對高算力單卡的依賴。通過各類技術創新,實現了高效并行計算,這為AI推理提供了參考之路。
在DeepSeek開源周之后,由于技術思路上的高度契合,昇騰和科大訊飛聯合團隊,率先實現了8機64卡的跨節點專家并行推理集群,這是繼DeepSeek公布其MoE模型訓練推理方案后,業界首個基于自研算力的解決方案。
在大EP方案中,因為有更多專家,帶來了負載均衡、卡間通信的挑戰。昇騰大EP方案采用了MoE負載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多token預測)等技術,來實現集群的高效性。
這些優化技術,核心圍繞兩大方向:一是提高推理集群的吞吐,如MoE負載均衡,來服務更多用戶;另一是降低時延,如MLAPO融合算子等,這與用戶體驗息息相關。
具體而言,MoE負載均衡如何實現高吞吐?通俗說是要避免有的專家特別忙,有的則特別閑,還要解決專家之間交換意見占用了處理問題的時間等問題。通過自動尋優、自動配比、自動預測、自動降解等創新,昇騰大EP方案實現了負載均衡,極大提高了集群的吞吐量。
MLAPO融合算子有如何降低時延?為了優化模型的推理效率和顯存占用,DeepSeek采用了MLA(多頭潛在注意力機制)。在MLA的預處理階段,傳統方案是多算子串行,頻繁占用內存、通信等資源;昇騰則將各種小算子融合成單一算子,把上述頻繁操作并行處理,降低計算耗時70%,也就降低了時延。
這些技術中,還值得關注的是PD分離部署,這其實是業界一個公開的推理優化技術。生成式人工智能過程分為兩個階段,一是理解用戶問題,稱為預填充階段(Prefill),需要大量計算。另一是生成回復,稱為解碼(Decode),對計算要求降低、訪存要求提升。
之前兩階段由同一個節點完成,有資源競爭、推理延遲問題。業界目前將兩者分開部署,成為提升推理效率的關鍵技術。傳統的PD靜態分離方案不夠靈活,昇騰大EP提供了autoPD分離部署方案,適應動態調整的場景,系統有效吞吐提升50%以上。
經過多點技術的優化,目前昇騰大EP方案推理吞吐提升3.2倍,端到端時延降低50%,并在持續提升中。
在這里,要提到不少企業關注的英偉達H20,它被視為是替代***的熱門之選。H20是***的閹割版,其AI算力僅為***的15%,因此在大模型預訓練上很難發揮作用。
在推理上,H20因為算力制約,只適應特定模型架構,如稠密模型的長序列推理任務場景。
針對DeepSeek采用的MoE,以上述PD場景為例,在預填充階段(Prefill),需要較強算力,H20性能不占優。在解碼(Decode)階段,在大EP的大批量(batch size)場景下,H20算力也極易觸及瓶頸,時延大幅增加,無法充分發揮DeepSeek專家并行機制帶來的高吞吐優勢,因此,DeepSeek在推理服務上,也未采用H20。
H20目前被作為特定場景下的過渡性產品。
數智前線獲悉,在此前一體機市場上,昇騰份額已達到70%以上。而根據用戶的需求,昇騰大EP方案可支持從幾十卡到幾千卡甚至更大規模的推理集群。企業之前采購的一體機,可通過軟件升級,擴展為大EP推理方案,實現平滑遷移,支撐企業加速AI部署帶來的智算市場爆發。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。