国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

華為Mate 80風(fēng)扇版缺席:因某些原因未能量產(chǎn)落地聯(lián)力新款SP V2系列電源首發(fā)699元起:拉絲鋁制外殼、FDB風(fēng)扇三星內(nèi)存漲價:手機(jī)/電腦抓緊時間買了智元機(jī)器人:自研機(jī)器人操作系統(tǒng)“靈渠 OS”計劃年底正式開源京東正式推出“七鮮咖啡”:主打“只用鮮奶”,每周開出5家新店首款高端MPV正式定名 11月21日廣州全球首秀蔚來ES6 30萬臺紀(jì)念版上市:34.98萬起蜂巢能源董事長:新能源汽車起火事故中 三元熱失控占比70%一升油發(fā)3.73度電 廣汽埃安首款增程i60上市:10.48萬起開卷榮耀500系列配置全面出爐:續(xù)航強(qiáng)但影像短板,11月24日發(fā)布會華為Mate 80系列發(fā)布會官宣!新設(shè)計很特別,Pro Max致敬經(jīng)典OPPO Find X9 Pro翻車?用戶評分排名墊底,2億像素也拉胯《騰訊大摜蛋》殺入賽事賽道,一個“賽事中臺”的野心浮出水面四電機(jī)3019馬力,比亞迪仰望U9 Xtreme純電超跑廣州車展全球首秀阿里千問APP開啟公測:直面ChatGPT,全面沖刺C端AI市場P圖只用一句話,小米超級小愛AI大模型“隨心修圖”上線JetBrains發(fā)布AI編碼智能體基準(zhǔn)測試平臺DPAI Arena全球人形機(jī)器人出貨量未來5年復(fù)合增長率高達(dá)69.7%鄔賀銓:面向6G智能體終端,將孕育催生全新的操作系統(tǒng)小鵬汽車 Q3 營收同比翻倍至 203.8 億元,同比增長102%
  • 首頁 > 云計算頻道 > 大模型

    天工一刻 | 一文看懂MoE混合專家大模型

    2024年05月07日 14:58:36 來源:Donews

      隨著大模型技術(shù)迎來顛覆性突破,新興AI應(yīng)用大量涌現(xiàn),不斷重塑著人類、機(jī)器與智能的關(guān)系。

      為此,昆侖萬維集團(tuán)重磅推出《天工一刻》系列產(chǎn)業(yè)觀察欄目。在本欄目中,我們將對大模型產(chǎn)業(yè)熱點、技術(shù)創(chuàng)新、應(yīng)用案例進(jìn)行深度解讀,同時邀請學(xué)術(shù)專家、行業(yè)領(lǐng)袖分享優(yōu)秀的大模型行業(yè)趨勢、技術(shù)進(jìn)展,以饗讀者。

      MoE混合專家大模型最近究竟有多火?

      舉個例子,在此前的GTC 2024上,英偉達(dá)PPT上的一行小字,吸引了整個硅谷的目光。

      “GPT-MoE 1.8T”

      這行小字一出來,X(推特)上直接炸鍋了。

      “GPT-4采用了MoE架構(gòu)”,這條整個AI圈瘋傳已久的傳言,竟然被英偉達(dá)給“無意中”坐實了。消息一出,大量AI開發(fā)者們在社交平臺上發(fā)帖討論,有的看戲吐槽、有的認(rèn)真分析、有的開展技術(shù)對比,一時好不熱鬧。

      MoE大模型的火熱,可見一斑。

      近半年多以來,各類MoE大模型更是層出不窮。在海外,OpenAI推出GPT-4、谷歌推出Gemini、Mistral AI推出Mistral、連馬斯克xAI的最新大模型Grok-1用的也是MoE架構(gòu)。

      而在國內(nèi),昆侖萬維也于今年4月17日正式推出了新版MoE大語言模型「天工3.0」,擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,成為全球最大的開源MoE大模型。

      MoE究竟是什么?它有哪些技術(shù)原理?它的優(yōu)勢和缺點是什么?它又憑什么能成為當(dāng)前最火的大模型技術(shù)?

      以上問題,本文將逐一回答。

      MoE核心邏輯:術(shù)業(yè)有專攻

      MoE,全稱Mixture of Experts,混合專家模型。

      MoE是大模型架構(gòu)的一種,其核心工作設(shè)計思路是“術(shù)業(yè)有專攻”,即將任務(wù)分門別類,然后分給多個“專家”進(jìn)行解決。

      與MoE相對應(yīng)的概念是稠密(Dense)模型,可以理解為它是一個“通才”模型。

      一個通才能夠處理多個不同的任務(wù),但一群專家能夠更高效、更專業(yè)地解決多個問題。

      (圖片來源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)

      上圖中,左側(cè)圖為傳統(tǒng)大模型架構(gòu),右圖為MoE大模型架構(gòu)。

      兩圖對比可以看到,與傳統(tǒng)大模型架構(gòu)相比,MoE架構(gòu)在數(shù)據(jù)流轉(zhuǎn)過程中集成了一個專家網(wǎng)絡(luò)層(紅框部分)。

      下圖為紅框內(nèi)容的放大展示:

      (圖片來源:Zian (Andy) Wang)

      專家網(wǎng)絡(luò)層的核心由門控網(wǎng)絡(luò)(Gating Network)和一組專家模型(Experts)構(gòu)成,其工作流程大致如下:

      1、數(shù)據(jù)首先會被分割多個區(qū)塊(Token),每組數(shù)據(jù)進(jìn)入專家網(wǎng)絡(luò)層時,首先會進(jìn)入門控網(wǎng)絡(luò)。

      2、門控網(wǎng)絡(luò)將每組數(shù)據(jù)分配給一個或多個專家,每個專家模型可以專注于處理該部分?jǐn)?shù)據(jù),“讓專業(yè)的人做專業(yè)的事”。

      3、最終,所有專家的輸出結(jié)果匯總,系統(tǒng)進(jìn)行加權(quán)融合,得到最終輸出。

      當(dāng)然,以上只是一個概括性描述,關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案,各家方案都略有差別,但核心思路是一致的。

      與一個“通才網(wǎng)絡(luò)”相比,一組術(shù)業(yè)有專攻的“專家網(wǎng)絡(luò)”能夠提供更好的模型性能、更好地完成復(fù)雜的多種任務(wù),同時,也能夠在不顯著增加計算成本的情況下大幅增加模型容量,讓萬億參數(shù)級別的大模型成為可能。

      Scaling Law:讓模型更大

      MoE之所以受到整個AI大模型行業(yè)的追捧,一個核心的原因是——今天的大模型,正迫切地需要變得更大。

      而這一切的原因,則要追溯到Scaling Law。

      Scaling Law,規(guī)模定律,也譯為縮放定律。這不是一個嚴(yán)格的數(shù)學(xué)定律,它只是用來描述物理、生物、計算機(jī)等學(xué)科中關(guān)于系統(tǒng)復(fù)雜屬性變化的規(guī)律。

      而在大語言模型里,從Scaling Law能夠衍生出一個通俗易懂的結(jié)論:

      “模型越大,性能越好。”

      更準(zhǔn)確的描述是:當(dāng)AI研究人員不斷增加大語言模型的參數(shù)規(guī)模時,模型的性能將得到顯著提升,不僅能獲得強(qiáng)大的泛化能力,甚至出現(xiàn)智能涌現(xiàn)。

      自人工智能誕生以來,人們一直試圖設(shè)計出更巧妙的算法、更精密的架構(gòu),希望通過人類的智慧將機(jī)器設(shè)計得更聰明,達(dá)到通用人工智能。

      但以O(shè)penAI為代表的業(yè)內(nèi)另一種聲音說:“我反對!”

      2019年,機(jī)器學(xué)習(xí)先驅(qū)Rich Sutton曾經(jīng)發(fā)表過一篇經(jīng)典文章《The Bitter Lesson》,該文幾乎被全體OpenAI成員奉為圭臬。

      文中認(rèn)為,也許這種傳統(tǒng)方法是一種錯誤的思路;也許試圖用人類智慧設(shè)計出通用人工智能的這個路徑,在過去幾十年間,讓整個行業(yè)都走了大量彎路,付出了苦澀的代價。

      而真正正確的路徑是:不斷擴(kuò)大模型規(guī)模,再砸進(jìn)去天文數(shù)字的強(qiáng)大算力,讓Scaling Law創(chuàng)造出更“聰明”的人工智能,而不是靠人類自己去設(shè)計。

      在這一輪大模型火起來之前,遵循這一思路的科學(xué)家一直是業(yè)內(nèi)的少數(shù)派,但自從GPT路線在自然語言處理上大獲成功之后,越來越多研究人員加入這一陣列。

      追求更大的模型,成為了人工智能性能突破的一大核心思路。

      然而問題隨之而來。

      眾所周知,隨著大模型越來越大,模型訓(xùn)練的困難程度、資源投入、訓(xùn)練時間都在指數(shù)型提升,可模型效果卻無法保證等比例提升。

      隨著模型越來越大,穩(wěn)定性也越來越差,種種綜合原因讓大模型參數(shù)量長久以來限制在百億與千億級別,難以進(jìn)一步擴(kuò)大。

      如何在有限的計算資源預(yù)算下,如何訓(xùn)練一個規(guī)模更大、效果更好的大模型,成為了困擾行業(yè)的問題。

      此時,人們將目光投向了MoE。

      MoE:突破萬億參數(shù)大關(guān)

      早在1991年,兩位人工智能界的泰斗Michael Jordan與Geoffrey Hinton就聯(lián)手發(fā)布了MoE領(lǐng)域的奠基論文《Adaptive Mixtures of Local Experts》,正式開創(chuàng)了這一技術(shù)路徑。

      2020年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》論文又首次將MoE技術(shù)引入到Transformer架構(gòu)中,拉開了“MoE+大模型”的大幕。

      2022年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》論文中提出的MoE大模型更是一舉突破了萬億參數(shù)大關(guān)。

      Switch Transformers模型參數(shù)達(dá)到1.57萬億,與此前的T5模型相比,在相同的計算資源下獲得高達(dá)7倍的模型預(yù)訓(xùn)練速度提升,并實現(xiàn)了4倍的模型加速。

      而正如文章開頭所言,本屆GTC上英偉達(dá)側(cè)面證實了那個公認(rèn)的傳言:OpenAI在2023年推出的GPT-4,同樣采用了MoE架構(gòu),其模型效果與計算效率都得到了顯著提升。

      總結(jié)起來,MoE在大模型領(lǐng)域的優(yōu)勢包括:

      1、與傳統(tǒng)的Dense模型相比,MoE能夠在遠(yuǎn)少于前者所需的計算資源下進(jìn)行有效的預(yù)訓(xùn)練,計算效率更高、速度更快,進(jìn)而使得模型規(guī)模得到顯著擴(kuò)大,獲得更好的AI性能。

      2、由于MoE在模型推理過程中能夠根據(jù)輸入數(shù)據(jù)的不同,動態(tài)地選擇不同的專家網(wǎng)絡(luò)進(jìn)行計算,這種稀疏激活的特性能夠讓模型擁有更高的推理計算效率,從而讓用戶獲得更快的AI響應(yīng)速度。

      3、由于MoE架構(gòu)中集成了多個專家模型,每個專家模型都能針對不同的數(shù)據(jù)分布和構(gòu)建模式進(jìn)行搭建,從而顯著提升大模型在各個細(xì)分領(lǐng)域的專業(yè)能力,使得MoE在處理復(fù)雜任務(wù)時性能顯著變好。

      4、針對不同的專家模型,AI研究人員能夠針對特定任務(wù)或領(lǐng)域的優(yōu)化策略,并通過增加專家模型數(shù)量、調(diào)整專家模型的權(quán)重配比等方式,構(gòu)建更為靈活、多樣、可擴(kuò)展的大模型。

      不過,天下沒有免費的性能提升,在擁有種種優(yōu)勢之于,MoE架構(gòu)也存在著不少挑戰(zhàn)。

      由于MoE需要把所有專家模型都加載在內(nèi)存中,這一架構(gòu)對于顯存的壓力將是巨大的,通常涉及復(fù)雜的算法和高昂的通信成本,并且在資源受限設(shè)備上部署受到很大限制。

      此外,隨著模型規(guī)模的擴(kuò)大,MoE同樣面臨著訓(xùn)練不穩(wěn)定性和過擬合的問題、以及如何確保模型的泛化性和魯棒性問題、如何平衡模型性能和資源消耗等種種問題,等待著大模型開發(fā)者們不斷優(yōu)化提升。

      結(jié)語

      總結(jié)來說,MoE架構(gòu)的核心思想是將一個復(fù)雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網(wǎng)絡(luò)分別處理。這些專家網(wǎng)絡(luò)專注于解決特定類型的問題,通過組合各自的輸出來提供最終的解決方案,提高模型的整體性能和效率。

      當(dāng)前,MoE仍舊是一個新興的大模型研究方向,研究資料少、資源投入大、技術(shù)門檻高,其研發(fā)之初仍舊以海外巨頭為主導(dǎo),國內(nèi)只有昆侖萬維等少數(shù)玩家能夠推出自研MoE大模型。

      不過,值得注意的是,雖然以擴(kuò)大模型參數(shù)為核心的“暴力出奇跡”路線主導(dǎo)了當(dāng)前的人工智能行業(yè)研究,但時至今日也沒有人能拍著胸脯保證,Scaling Law就是人類通往通用人工智能的唯一正確答案。

      從1991年正式提出至今,MoE架構(gòu)已歷經(jīng)了30年歲月;深度神經(jīng)網(wǎng)絡(luò)更是70年前就已提出的概念,直到近十多年間才取得突破,帶領(lǐng)人類攀上人工智能的又一座高峰。

      MoE不是人工智能技術(shù)前進(jìn)道路的終點,它甚至不會是大模型技術(shù)的最終答案。未來,還將有大量感知、認(rèn)知、計算、智能領(lǐng)域的挑戰(zhàn)擺在研究者面前,等待著人們?nèi)ブ鹨唤鉀Q。

      所幸的是,怕什么真理無窮,進(jìn)一寸有一寸的歡喜。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達(dá)35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業(yè)IT

    華為坤靈發(fā)布IdeaHub千行百業(yè)體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業(yè)體驗官計劃發(fā)布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    亚洲国产aⅴ天堂久久| 成人夜色视频网站在线观看| 久久毛片高清国产| 7777精品伊人久久久大香线蕉经典版下载| 91视视频在线观看入口直接观看www | 91久久一区二区| 91免费视频观看| 色婷婷综合激情| 欧美视频日韩视频| 欧美一区二区在线免费播放| 欧美电影免费观看高清完整版 | 国产清纯在线一区二区www| 久久久午夜电影| 国产精品国产三级国产aⅴ原创 | 在线亚洲一区二区| 欧美日韩高清影院| 精品国产凹凸成av人网站| 久久精品男人天堂av| 亚洲欧洲一区二区在线播放| 亚洲一区二区三区四区在线观看 | 国产一区二区三区蝌蚪| 成人动漫av在线| 欧美亚洲图片小说| 精品福利av导航| 综合色天天鬼久久鬼色| 日韩1区2区日韩1区2区| 国产精品自在在线| 91久久免费观看| 亚洲精品一线二线三线| 亚洲精品精品亚洲| 国产一区二区三区免费看| 91国偷自产一区二区使用方法| 欧美一二三四区在线| 国产亚洲午夜高清国产拍精品| 亚洲综合久久久久| 大胆亚洲人体视频| 日韩一区二区在线观看| 一区二区视频在线看| 精品亚洲成a人| 欧美色综合天天久久综合精品| 久久尤物电影视频在线观看| 亚洲国产va精品久久久不卡综合| 国产乱对白刺激视频不卡| 欧美日韩小视频| ...中文天堂在线一区| 国产在线精品一区二区 | 中文字幕一区三区| 免费亚洲电影在线| 在线欧美小视频| 国产精品美女久久久久久久| 久久 天天综合| 欧美日韩电影在线播放| 亚洲欧美日韩成人高清在线一区| 韩国av一区二区三区在线观看| 欧美性猛片aaaaaaa做受| 国产精品色噜噜| 国产尤物一区二区| 日韩一区二区三| 亚洲成人免费在线观看| 97超碰欧美中文字幕| 国产午夜精品福利| 韩国一区二区视频| 日韩欧美中文字幕制服| 日本欧美韩国一区三区| 欧美日韩激情在线| 亚洲香肠在线观看| 欧美亚洲自拍偷拍| 亚洲一区二区三区自拍| 欧美亚洲综合色| 亚洲一区二区三区国产| 在线观看日韩电影| 亚洲国产另类av| 欧美日韩一区二区在线视频| 亚洲国产精品自拍| 欧美男女性生活在线直播观看| 亚洲一区二区三区美女| 欧美亚洲高清一区| 亚洲成a人v欧美综合天堂下载| 欧洲色大大久久| 亚洲国产色一区| 欧美一级艳片视频免费观看| 久色婷婷小香蕉久久| 26uuu欧美| 成人福利视频在线| 一区二区三区在线播| 欧美日韩视频在线一区二区 | 欧美激情一区二区三区四区| 国产又粗又猛又爽又黄91精品| 日韩精品一区二区三区在线播放| 开心九九激情九九欧美日韩精美视频电影| 91精品国产综合久久精品性色| 久久精品国产99久久6| 欧美大片顶级少妇| 国产成人自拍在线| 成人欧美一区二区三区在线播放| 成人丝袜18视频在线观看| 国产精品久久久久久妇女6080| www.亚洲激情.com| 亚洲午夜精品网| 精品国产髙清在线看国产毛片| 国产精品一级片| 亚洲男同性视频| 日韩一区二区三区四区五区六区| 国产精品中文字幕日韩精品| 亚洲丝袜美腿综合| 91精品欧美久久久久久动漫 | 国产jizzjizz一区二区| 国产精品久久久久久久久久久免费看 | 国产精品福利电影一区二区三区四区| 91亚洲精品一区二区乱码| 亚洲综合色丁香婷婷六月图片| 91精品国产aⅴ一区二区| 国产呦萝稀缺另类资源| 综合久久国产九一剧情麻豆| 69精品人人人人| 大桥未久av一区二区三区中文| 亚洲综合一二区| 久久影院视频免费| 欧美在线视频日韩| 国产.欧美.日韩| 日韩电影在线免费| 亚洲日本电影在线| 精品福利视频一区二区三区| 欧洲日韩一区二区三区| 国产一区在线观看麻豆| 亚洲午夜精品久久久久久久久| 国产午夜一区二区三区| 欧美精品在线观看播放| 9l国产精品久久久久麻豆| 美女一区二区三区在线观看| 亚洲视频在线一区| 久久精品日韩一区二区三区| 91精品在线观看入口| 91视频com| 国产在线麻豆精品观看| 丝袜美腿成人在线| 日韩一区在线看| 国产拍揄自揄精品视频麻豆| 日韩三级视频在线观看| 欧美美女网站色| 99re热视频这里只精品| 国产传媒欧美日韩成人| 乱一区二区av| 免费成人在线网站| 污片在线观看一区二区| 一区二区理论电影在线观看| 日韩美女啊v在线免费观看| 久久久久久日产精品| 日韩精品中文字幕一区二区三区 | 亚洲精品日产精品乱码不卡| 亚洲国产高清在线| 久久久综合精品| 精品国免费一区二区三区| 欧美一区二区三区在线视频 | 日本一区二区三区在线观看| 精品成人私密视频| 精品国产一区二区三区忘忧草| 6080国产精品一区二区| 欧美日韩黄色一区二区| 欧美三级蜜桃2在线观看| 色综合久久中文字幕| www.综合网.com| 91一区二区三区在线观看| 91一区二区在线观看| 91看片淫黄大片一级| 色综合天天视频在线观看| 一本到三区不卡视频| 91黄色小视频| 欧美日韩免费一区二区三区视频| 欧美日韩一区国产| 在线91免费看| 精品国产123| 中文字幕精品在线不卡| 一色屋精品亚洲香蕉网站| 亚洲男同1069视频| 亚洲 欧美综合在线网络| 日本午夜一区二区| 国产一区视频在线看| 成人app下载| 欧美日韩激情一区| 精品电影一区二区| 亚洲欧美综合另类在线卡通| 亚洲亚洲人成综合网络| 久久国产精品第一页| 国产a视频精品免费观看| 91丨九色丨蝌蚪富婆spa| 欧美日韩大陆在线| 久久精品亚洲国产奇米99| 亚洲精品五月天| 日本欧美肥老太交大片| 国产成人午夜精品5599| 日本电影亚洲天堂一区| 欧美成人午夜电影| 亚洲天堂网中文字| 另类人妖一区二区av| 91视频xxxx| 精品88久久久久88久久久| 综合色中文字幕| 黄色精品一二区| 欧美优质美女网站|