国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    昆侖萬維開源2千億稀疏大模型天工MoE,全球首創能用4090推理

    2024年06月03日 18:43:10 來源:中文科技資訊

      2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強勁, 同時推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間 checkpoint 擴展而來,是首個完整將 MoE Upcycling 技術應用并落地的開源千億 MoE大模型,也是首個支持用單臺 4090 服務器推理的開源千億 MoE大模型。

      開源地址:

      Skywork-MoE 的模型權重、技術報告完全開源,免費商用,無需申請:

      • 模型權重下載:

      ○ https://huggingface.co/Skywork/Skywork-MoE-base

      ○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

      • 模型開源倉庫:https://github.com/SkyworkAI/Skywork-MoE

      • 模型技術報告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

      • 模型推理代碼:(支持 8x4090 服務器上 8 bit 量化加載推理) https://github.com/SkyworkAI/vllm

      模型架構:

      本次開源的 Skywork-MoE 模型隸屬于天工 3.0 的研發模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數量為 146B,激活參數量 22B,共有 16 個 Expert,每個 Expert 大小為 13B,每次激活其中的 2 個 Expert。

      天工 3.0 還訓練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開源之列。

      模型能力:

      我們基于目前各大主流模型評測榜單評測了 Skywork-MoE,在相同的激活參數量 20B(推理計算量)下,Skywork-MoE 能力在行業前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同時 Skywork-MoE 的總參數大小比 DeepSeekV2 的總參數大小要小 1/3,用更小的參數規模做到了相近的能力。

      技術創新:

      為了解決 MoE 模型訓練困難,泛化性能差的問題,相較于 Mixtral-MoE, Skywork-MoE 設計了兩種訓練優化算法:

      1. Gating Logits 歸一化操作

      我們在 Gating Layer 的 token 分發邏輯處新增了一個 normalization 操作,使得 Gating Layer 的參數學習更加趨向于被選中的 top-2 experts,增加 MoE 模型對于 top-2 的置信度:

      2. 自適應的 Aux Loss

      有別于傳統的固定系數(固定超參)的 aux loss, 我們在 MoE 訓練的不同階段讓模型自適應的選擇合適的 aux loss 超參系數,從而讓 Drop Token Rate 保持在合適的區間內,既能做到 expert 分發的平衡,又能讓 expert 學習具備差異化,從而提升模型整體的性能和泛化水平。在 MoE 訓練的前期,由于參數學習不到位,導致 Drop Token Rate 太高(token 分布差異太大),此時需要較大的 aux loss 幫助 token load balance;在 MoE 訓練的后期,我們希望 Expert 之間仍保證一定的區分度,避免 Gating 傾向為隨機分發 Token,因此需要較低的 aux loss 降低糾偏。

      訓練 Infra

      如何對 MoE 模型高效的進行大規模分布式訓練是一個有難度的挑戰,目前社區還沒有一個最佳實踐。Skywork-MoE 提出了兩個重要的并行優化設計,從而在千卡集群上實現了 MFU 38% 的訓練吞吐,其中 MFU 以 22B 的激活參數計算理論計算量。

      1. Expert Data Parallel

      區別于 Megatron-LM 社區已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)設計,我們提出了一種稱之為 Expert Data Parallel 的并行設計方案,這種并行方案可以在 Expert 數量較小時仍能高效的切分模型,對 Expert 引入的 all2all 通信也可以最大程度的優化和掩蓋。相較于 EP 對 GPU 數量的限制和 ETP 在千卡集群上的低效, EDP 可以較好的解決大規模分布式訓練 MoE 的并行痛點,同時 EDP 的設計簡單、魯棒、易擴展,可以較快的實現和驗證。

      一個最簡單的 EDP 的例子,兩卡情況下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

      2. 非均勻切分流水并行

      由于 first stage 的 Embedding 計算和 last stage 的 Loss 計算,以及 Pipeline Buffer 的存在, 流水并行下均勻切分 Layer 時的各 stage 計算負載和顯存負載均有較明顯的不均衡情況。我們提出了非均勻的流水并行切分和重計算 Layer 分配方式,使得總體的計算/顯存負載更均衡,約有 10% 左右的端到端訓練吞吐提升。

      比較均勻切分和非均勻切分下的流水并行氣泡:對于一個 24 層 Layer 的 LLM, (a) 是均勻切分成 4 個 stage,每個 stage  的 layer 數量是:[6, 6, 6, 6].(b) 是經過優化后的非均勻切分方式,切成 5 個 stage, 每個 stage 的 layer 數量是:[5, 5, 5, 5, 4] , 在中間流水打滿的階段,非均勻切分的氣泡更低。

      MoE Know-how

      此外,Skywork-MoE 還通過一系列基于 Scaling Laws 的實驗,探究哪些約束會影響 Upcycling 和 From Scratch 訓練 MoE 模型的好壞。

      一個可以遵循的經驗規則是:如果訓練 MoE 模型的 FLOPs 是訓練 Dense 模型的 2 倍以上,那么選擇 from Scratch 訓練 MoE 會更好,否則的話,選擇 Upcycling 訓練 MoE 可以明顯減少訓練成本。

      4090 推理

      Skywork-MoE 是目前能在 8x4090 服務器上推理的最大的開源 MoE 模型。8x4090 服務器一共有 192GB 的 GPU 顯存,在 FP8 量化下(weight 占用 146GB),使用我們首創的非均勻 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合適的 batch size 內達到 2200 tokens/s 的吞吐。天工團隊完整開源了相關的推理框架代碼和安裝環境,詳情參見:https://github.com/SkyworkAI/Skywork-MoE

      結語

      我們希望本次開源的 Skywork-MoE 模型、技術報告和相關的實驗結果可以給開源社區貢獻更多的 MoE 訓練經驗和 Know-how,包括模型結構、超參選擇、訓練技巧、訓練推理加速等各方面, 探索用更低的訓練推理成本訓更大更強的模型,在通往 AGI 的道路上貢獻一點力量。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    [No.H002]

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    欧美精品亚洲二区| 欧美三级电影精品| 亚洲色图都市小说| 国产在线播放一区| 91精品国产综合久久久久久久| 日韩免费视频线观看| 欧洲av在线精品| 中文一区一区三区高中清不卡| 日韩avvvv在线播放| 蜜臀av亚洲一区中文字幕| 日韩一区二区三区电影| 国产精品系列在线| 亚洲一区二区三区四区不卡| 久草中文综合在线| 久久精品视频一区二区| 成人国产亚洲欧美成人综合网| 成人美女视频在线观看18| 免费在线成人网| 欧美精品一区二区三区在线| 日韩激情在线观看| 91视视频在线观看入口直接观看www| 国产女同互慰高潮91漫画| 色天使色偷偷av一区二区| 亚洲欧美日韩国产综合| 成人手机在线视频| 亚洲va国产va欧美va观看| 99r国产精品| 日日骚欧美日韩| 日本在线播放一区二区三区| 亚洲国产欧美在线| 国产一区二区免费看| 欧美不卡视频一区| 久草中文综合在线| 一本在线高清不卡dvd| 99精品视频在线观看免费| 欧美最猛黑人xxxxx猛交| 欧美三级在线视频| 欧美一级片在线| 国产激情一区二区三区| 制服丝袜亚洲色图| 色网站国产精品| 欧美一区二区三区在| 国产亚洲欧美日韩日本| 亚洲欧美一区二区三区久本道91| 亚洲最新视频在线播放| 午夜电影久久久| 1024精品合集| 久久蜜桃一区二区| 26uuu精品一区二区| 欧美军同video69gay| 国产精品你懂的在线欣赏| 日本va欧美va精品发布| 粉嫩aⅴ一区二区三区四区| av中文字幕亚洲| 91国产丝袜在线播放| 欧美麻豆精品久久久久久| 最近中文字幕一区二区三区| 麻豆一区二区三| 欧美性大战久久久久久久蜜臀| 99精品一区二区| 日韩免费高清av| 亚洲亚洲人成综合网络| www.色综合.com| 久久精品视频一区二区| 麻豆91精品视频| 欧美片在线播放| 91浏览器在线视频| 亚洲男同性视频| 成人成人成人在线视频| 欧美精品一区二区三区四区| 国产在线精品一区在线观看麻豆| 亚洲精品综合在线| 欧美国产欧美综合| 国产91在线|亚洲| 久久久久久影视| 成人网在线免费视频| 亚洲国产精品一区二区www| 国产69精品久久99不卡| 亚洲国产视频一区| 国产亚洲成aⅴ人片在线观看| 国产美女娇喘av呻吟久久| 午夜精品一区二区三区电影天堂 | 99re66热这里只有精品3直播| 亚洲综合成人在线视频| 欧美喷水一区二区| 成人午夜大片免费观看| 日韩精品视频网| 国产欧美日韩精品一区| 777欧美精品| 国内欧美视频一区二区| 一区二区免费看| 国产欧美日韩在线视频| 日本韩国一区二区三区视频| 日韩黄色小视频| 亚洲国产成人av好男人在线观看| 色综合亚洲欧洲| 99在线精品观看| 日韩精品1区2区3区| 欧美肥妇bbw| 欧美日韩精品一区视频| 色妞www精品视频| 美女免费视频一区| 亚洲精选一二三| 国产精品久久久久桃色tv| 国产精品欧美经典| 国产精品丝袜一区| 欧美国产精品v| 国产精品嫩草影院com| 日韩免费福利电影在线观看| 精品不卡在线视频| 久久久久99精品国产片| 欧美亚洲国产一卡| 欧美三区在线观看| 在线观看国产日韩| av激情成人网| 成人一区二区三区视频在线观看| 美国毛片一区二区| 日韩在线一区二区| 久久精品二区亚洲w码| 在线不卡免费av| 99re成人在线| 国产精品无人区| 亚洲欧洲无码一区二区三区| 99久久久无码国产精品| 精品一区二区在线免费观看| 午夜精品久久久久久久蜜桃app| 日本女人一区二区三区| 精品无码三级在线观看视频| 国产精华液一区二区三区| 韩国欧美国产1区| 风间由美一区二区av101| 欧美色欧美亚洲另类二区| 欧美日韩视频在线观看一区二区三区| 久久久久成人黄色影片| 国产欧美综合色| 亚洲一区二区四区蜜桃| 香蕉乱码成人久久天堂爱免费| 亚洲高清免费在线| 国产精品亚洲第一区在线暖暖韩国| 日韩午夜激情电影| 久久久不卡网国产精品一区| 国产亚洲福利社区一区| 一区二区三区精品| 性感美女极品91精品| 国产成人精品免费| 欧美怡红院视频| 亚洲日本免费电影| 久久精品国内一区二区三区| 欧美午夜视频网站| 国产精品欧美一级免费| 天堂va蜜桃一区二区三区| 成人午夜激情在线| 欧美精品一区二区精品网| 紧缚奴在线一区二区三区| 欧美不卡激情三级在线观看| 亚洲国产精品精华液2区45| 久久成人18免费观看| 风间由美一区二区三区在线观看 | 成人久久久精品乱码一区二区三区| 国产精品影视在线观看| 国产农村妇女毛片精品久久麻豆| 美女网站一区二区| 日韩一区二区三区视频| 美女一区二区在线观看| 在线精品视频免费播放| 亚洲美女区一区| av在线不卡电影| 亚洲精品视频免费观看| 一本色道a无线码一区v| 综合欧美一区二区三区| 不卡在线视频中文字幕| 中文字幕一区二区视频| 色婷婷综合中文久久一本| 亚洲欧美韩国综合色| 欧美亚洲国产一区二区三区 | 久久er99热精品一区二区| 94-欧美-setu| ●精品国产综合乱码久久久久| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产精品污网站| 成人av集中营| 伊人色综合久久天天| 色偷偷88欧美精品久久久| 天堂资源在线中文精品| 日韩欧美一级二级三级| 韩国一区二区在线观看| 精品国产91洋老外米糕| 高清不卡在线观看| 视频一区二区三区中文字幕| 中文字幕在线视频一区| 91精品国产免费| 欧美日本不卡视频| 99久久99久久精品免费看蜜桃 | 亚洲一区二区视频在线观看| 欧美成人乱码一区二区三区| 高清成人在线观看| 亚洲国产一区二区视频| 一区二区三区国产豹纹内裤在线 | 视频一区中文字幕国产| 日av在线不卡|