在DeepSeek“開源周”活動的第二天,該公司正式發布了DeepEP,這是首個開源的用于混合專家(MoE)模型訓練和推理的專家并行(EP)通信庫。DeepEP以其高效優化的全到全通信方式、支持NVLink和RDMA技術以及高吞吐量和低延遲的內核設計,成為MoE模型開發的重要工具。
DeepEP不僅支持低精度計算(包括FP8數據格式),還針對不對稱帶寬轉發進行了優化,適合訓練和推理的預填充任務。此外,其低延遲內核采用純RDMA技術,顯著優化了推理解碼速度。通過基于Hook的通信與計算重疊方法,DeepEP進一步提升了GPU資源利用效率。
當前,DeepEP支持Hopper GPU架構,并需要Python 3.8、CUDA 12.3、PyTorch 2.1及以上版本,同時依賴NVLink和RDMA網絡進行節點間通信。該庫的開源為MoE模型的開發和應用提供了更多可能性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。