国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

聚焦物理AI,英偉達SC25大會發(fā)布Apollo系列模型與Warp框架寧德時代:2027年有望實現(xiàn)全固態(tài)電池小批量生產(chǎn)拼多多發(fā)布Q3財報 營收1082.8億元 同比增長9%百度Q3總營收312億元:首次披露AI業(yè)務(wù)收入 增速50%超預(yù)期寧夏·浙江算力產(chǎn)業(yè)鏈供需對接活動 在杭州成功舉辦富士膠片集團發(fā)布2025財年上半年度財務(wù)報告三星海外發(fā)布Smart Keyboard無線鍵盤 支持多設(shè)備切換與AI快捷鍵功能VAIO推出迪士尼聯(lián)名 F16 / F14 筆記本,A面激光雕刻 IP 插畫松下發(fā)布《最終幻想 14》聯(lián)名 SoundSlayer 無線頸掛式揚聲器天馬發(fā)布全域感光天工屏等新品,支持全屏指紋識別消息稱豐田計劃將旗艦車型換代周期增至 9 年首發(fā)!“雙11”手機市場-全渠道周度銷售快報平板總是斷觸?聯(lián)想想幫幫AI服務(wù)智能體一鍵診斷解決主流造車新勢力,進入Next Level聯(lián)想發(fā)布中國首個足球賽事智能體,賦能足球賽事智慧升級多數(shù)據(jù)源融合,所見即所得:睿數(shù)信息發(fā)布手持式三維空間掃描儀新品RayZoom G200,實現(xiàn)移動端高精度實時建模華為Mate X7四配色官圖發(fā)布:獨一無二新設(shè)計 最強辨識度卡薩帝冰箱科技名詞為何演變成行業(yè)關(guān)鍵詞?手游愛好者狂喜!安卓17明年將迎重大升級全球OLED顯示器TOP5出爐:華碩擊敗三星首登第一
  • 首頁 > 云計算頻道 > 大模型

    手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

    2023年10月13日 11:06:01 來源:微信公眾號機器之心

      本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心。

      給 Llama2(羊駝)大模型剪一剪駝毛,會有怎樣的效果呢?今天普林斯頓大學(xué)陳丹琦團隊提出了一種名為LLM-Shearing的大模型剪枝法,可以用很小的計算量和成本實現(xiàn)優(yōu)于同等規(guī)模模型的性能。

      自大型語言模型(LLM)出現(xiàn)以來,它們便在各種自然語言任務(wù)上取得了顯著的效果。不過,大型語言模型需要海量的計算資源來訓(xùn)練。因此,業(yè)界對構(gòu)建同樣強大的中型規(guī)模模型越來越感興趣,出現(xiàn)了 LLaMA、MPT 和 Falcon,實現(xiàn)了高效的推理和微調(diào)。

      這些規(guī)模不等的 LLM 適用于不同的用例,但從頭開始訓(xùn)練每個單獨的模型(即使是10億參數(shù)小模型)還是需要大量計算資源,這對于大多數(shù)科研機構(gòu)而言仍是很大的負(fù)擔(dān)。

      因此在本文中,普林斯頓大學(xué)陳丹琦團隊試圖解決以下問題:能否利用現(xiàn)有預(yù)訓(xùn)練 LLM 來構(gòu)建一個規(guī)模更小、通用且在性能上有競爭力的 LLM,同時比從頭開始訓(xùn)練需要的計算量少得多?

      研究者探索利用結(jié)構(gòu)化剪枝來實現(xiàn)目標(biāo)。這里的問題是,對于通用 LLM,剪枝后的模型會出現(xiàn)性能下降,尤其是在剪枝后沒有大量計算投入的情況。他們使用的高效剪枝方法可以用來開發(fā)規(guī)模更小但仍具有性能競爭力的 LLM,并且與從頭開始訓(xùn)練相比,訓(xùn)練需要的計算量也大大減少。

      在對 LLM 進行剪枝之前,研究者確定了兩個關(guān)鍵技術(shù)挑戰(zhàn),一是如何確定最終的性能強大、推理高效的剪枝結(jié)構(gòu)?LLM 目前的結(jié)構(gòu)化剪枝技術(shù)沒有指定的目標(biāo)結(jié)構(gòu),導(dǎo)致剪枝后模型在性能和推理速度方面不理想;二是如何繼續(xù)預(yù)訓(xùn)練剪枝后的模型以達到預(yù)期性能?他們觀察到,與從頭開始訓(xùn)練模型相比,使用原始預(yù)訓(xùn)練數(shù)據(jù)來訓(xùn)練會導(dǎo)致不同域出現(xiàn)不同的損失減少。

      針對這兩個挑戰(zhàn),研究者提出了「LLM - shearing」算法。這種新穎的剪枝算法被稱為「定向結(jié)構(gòu)化剪枝」,它將源模型剪枝為指定的目標(biāo)架構(gòu),該結(jié)構(gòu)通過現(xiàn)有預(yù)訓(xùn)練模型的配置來確定。他們表示,該剪枝方法在源模型中搜索子結(jié)構(gòu),并在資源受限的情況下最大程度地保持性能。此外設(shè)計一種動態(tài)批量加載算法,它能根據(jù)損失減少率按比例加載每個域的訓(xùn)練數(shù)據(jù),從而高效利用數(shù)據(jù)并加速整體性能的提升。

      最終,研究者將 LLaMA2-7B 模型剪枝成了兩個較小的 LLM,分別是 Sheared-LLaMA-1.3B 和 Sheared-LLaMA-2.7B,證實了其方法的有效性。

      他們僅僅使用500億個 token(即 OpenLLaMA 預(yù)訓(xùn)練預(yù)算的5%)進行剪枝和繼續(xù)預(yù)訓(xùn)練,但對于11個代表性下游任務(wù)(如常識、閱讀理解和世界知識)以及開放式生成的指令調(diào)整,這兩個模型的性能仍然優(yōu)于其他同等規(guī)模的流行 LLM,包括 Pythia、INCITE 和 OpenLLaMA。

      不過要提到一點,在這篇論文發(fā)布 Sheared-LLaMA-3B 的時候,最強3B 開源模型的紀(jì)錄已經(jīng)被 StableLM-3B 打破了。

      此外,下游任務(wù)性能軌跡表明,使用更多 token 來進一步訓(xùn)練剪枝后的模型,將帶來更大的收益。研究者只對最多70億參數(shù)的模型進行了實驗,但 LLM-shearing 具有高度通用性,可以在未來的工作中擴展到任何規(guī)模的大型語言模型。

      方法介紹

      給定一個現(xiàn)有的大模型 M_S(源模型),本文目標(biāo)是研究如何有效地生成一個更小、更強的模型 M_T(目標(biāo)模型)。該研究認(rèn)為這需要兩個階段來完成:

      第一階段將 M_S 剪枝為 M_T,雖然這樣減少了參數(shù)數(shù)量,但不可避免地導(dǎo)致性能下降;

      第二階段持續(xù)預(yù)訓(xùn)練 M_T,使其性能更強。

      結(jié)構(gòu)化剪枝

      結(jié)構(gòu)化剪枝可以去除模型大量參數(shù),從而達到壓縮模型并加速推理的效果。然而,現(xiàn)有的結(jié)構(gòu)化剪枝方法會導(dǎo)致模型偏離常規(guī)架構(gòu)的配置。例如 CoFiPruning 方法產(chǎn)生的模型具有不統(tǒng)一的層配置,與標(biāo)準(zhǔn)的統(tǒng)一層配置相比,這樣會產(chǎn)生額外的推理開銷。

      本文對 CoFiPruning 進行了擴展,以允許將源模型剪枝為指定的任何目標(biāo)配置。例如,本文在生成2.7B 模型時使用 INCITE-Base-3B 架構(gòu)作為目標(biāo)結(jié)構(gòu)。

      此外,本文還在不同粒度的模型參數(shù)上學(xué)習(xí)一組剪枝掩碼( pruning mask),掩碼變量如下所示:

      每個掩碼變量控制是否剪枝或保留相關(guān)的子結(jié)構(gòu)。例如,如果對應(yīng)的 z^layer=0,則需要刪除這個層。下圖2說明了剪枝掩碼如何控制被剪枝的結(jié)構(gòu)。

      剪枝之后,本文通過保留與每個子結(jié)構(gòu)中的掩碼變量相關(guān)的最高得分組件來最終確定剪枝后的架構(gòu),并繼續(xù)使用語言建模目標(biāo)對剪枝后的模型進行預(yù)訓(xùn)練。

      動態(tài)批量加載

      該研究認(rèn)為對剪枝后的模型進行大量預(yù)訓(xùn)練是很有必要的,這樣才能恢復(fù)模型性能。

      受其他研究的啟發(fā),本文提出了一種更有效的算法,即動態(tài)批量加載,其可以根據(jù)模型性能簡單地動態(tài)調(diào)整域比例。算法如下:

      實驗及結(jié)果

      模型配置:本文將 LLaMA2-7B 模型作為源模型,然后進行結(jié)構(gòu)化剪枝實驗,他們將 LLaMA2-7B 壓縮成兩個較小的目標(biāo)尺寸2.7B 和1.3B 參數(shù),并將剪之后的模型與相同尺寸的模型進行了性能比較,包括 OPT-1.3B、Pythia-1.4B、OPT-2.7B、 Pythia-2.8B、INCITE-Base-3B、OpenLLaMA-3B-v1、OpenLLaMA-3B-v2。表8總結(jié)了所有這些模型的模型體系結(jié)構(gòu)細節(jié)。

      數(shù)據(jù):由于 LLaMA2的訓(xùn)練數(shù)據(jù)并不是公開訪問的,因此本文使用了 RedPajama 數(shù)據(jù)集 。表1提供了本文模型和基線模型使用的預(yù)訓(xùn)練數(shù)據(jù)。

      訓(xùn)練:研究者在所有實驗中最多使用了16個 Nvidia A100GPU (80GB)。

      SHEARED-LLAMA 優(yōu)于同等大小的 LM

      本文表明,Sheared-LLaMA 明顯優(yōu)于現(xiàn)有的類似規(guī)模的 LLM,同時只使用一小部分計算預(yù)算來從頭開始訓(xùn)練這些模型。

      下游任務(wù):表2展示了 Sheared-LLaMA 和類似大小的現(xiàn)有預(yù)訓(xùn)練模型的零樣本和少樣本在下游任務(wù)上的性能。

      指令調(diào)優(yōu):如圖3所示,與同等規(guī)模的所有其他預(yù)訓(xùn)練模型相比,指令調(diào)優(yōu)的 Sheared-LLaMA 實現(xiàn)了更高的獲勝率。

      圖4顯示了 INCITEBase-3B 模型開始時的精度要高得多,但其性能在持續(xù)的預(yù)訓(xùn)練過程中趨于穩(wěn)定。

      分析

      最后,研究者對本文方法的優(yōu)勢進行了分析。

      動態(tài)批量加載的有效性

      其中,研究者從以下三個方面的影響來分析動態(tài)批量加載的有效性:(1) 跨域的最終 LM 損失,(2) 整個訓(xùn)練過程中每個域的數(shù)據(jù)使用情況,(3) 下游任務(wù)性能。結(jié)果均基于 Sheared-LaMA-1.3B 算法。

      跨域損失差異。動態(tài)批量加載的目的是平衡各域的損失降低率,使損失在大致相同的時間內(nèi)達到參考值。圖5中繪制了模型損耗(原始批量加載和動態(tài)批量加載)與參考損耗之間的差異,相比之下,動態(tài)批量加載能均勻地減少損失,各域的損失差異也非常相似,這表明數(shù)據(jù)使用效率更高。

      數(shù)據(jù)使用情況。表3對比了 RedPajama 的原始數(shù)據(jù)比例和動態(tài)加載的域數(shù)據(jù)使用情況(圖7展示了整個訓(xùn)練過程中域權(quán)重的變化)。與其他域相比,動態(tài)批量加載增加了 Book 和 C4域的權(quán)重,這表明這些域更難恢復(fù)剪枝模型。

      下游性能。如圖6所示,與在原始 RedPajama 分布上訓(xùn)練的模型相比,使用動態(tài)批量加載訓(xùn)練的剪枝模型獲得了更好的下游性能。這表明,動態(tài)批量加載所帶來的更均衡的損失減少可以提高下游性能。

      與其他剪枝方法的對比

      此外,研究者將 LLM-shearing 方法與其他剪枝方法進行了比較,并報告了驗證困惑度,它是衡量整體模型能力的一個有力指標(biāo)。

      由于計算上的限制,下面的實驗控制了所有比較方法的總計算預(yù)算,而不是將每種方法運行到最后。

      如表4所示,在相同稀疏度下,本文的目標(biāo)剪枝模型的推理吞吐量比非均勻剪枝 CoFiPruning 模型更高,但困惑度略高。

      其他分析

      表5顯示,在控制 token 總量的情況下,增加剪枝開銷可以持續(xù)改善困惑度。然而,由于剪枝比持續(xù)的預(yù)訓(xùn)練更昂貴,研究者將0.4B 的 token 分配給剪枝。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    欧美亚洲综合色| 欧美一级一区二区| 欧美a级理论片| 亚洲激情一二三区| 亚洲免费大片在线观看| 国产精品麻豆视频| 亚洲另类色综合网站| 日本一二三四高清不卡| 久久久久国产精品人| xfplay精品久久| 久久久午夜电影| 久久精品视频在线免费观看| 久久综合色综合88| 欧美国产日韩一二三区| 中文字幕二三区不卡| 国产精品成人免费在线| 樱花影视一区二区| 青草国产精品久久久久久| 激情欧美一区二区三区在线观看| 国产成人免费9x9x人网站视频| 99久久综合狠狠综合久久| 在线精品观看国产| 欧美成人官网二区| 中文字幕中文字幕在线一区| 亚洲欧美aⅴ...| 午夜精品一区二区三区电影天堂| 美女一区二区三区在线观看| 国产精品99久久久久久久vr| 一本大道久久a久久精品综合| 欧美剧情片在线观看| 亚洲精品一区二区在线观看| 中文字幕在线观看不卡| 偷拍自拍另类欧美| 国产精品一区二区久激情瑜伽| 99国产精品国产精品久久| 欧美四级电影网| 精品久久久久久久人人人人传媒| 国产免费久久精品| 性做久久久久久免费观看欧美| 国产一区高清在线| 欧美在线免费播放| 国产视频一区二区在线观看| 亚洲一区二三区| 国产老女人精品毛片久久| 在线观看视频欧美| 国产亚洲1区2区3区| 亚洲va欧美va人人爽| 99久久精品国产导航| 欧美成人精品高清在线播放| 一区二区久久久| 成人免费高清视频| 日韩女优毛片在线| 午夜精品福利一区二区三区av| 成人动漫在线一区| 欧美α欧美αv大片| 一区二区成人在线观看| 高清久久久久久| 国产毛片精品视频| 91福利国产精品| 国产婷婷色一区二区三区四区| 亚洲一级电影视频| jlzzjlzz欧美大全| 国产性色一区二区| 精品亚洲成a人| 欧美精品久久久久久久多人混战| 国产精品灌醉下药二区| 国产一区久久久| 日韩欧美在线不卡| 污片在线观看一区二区| 色噜噜狠狠成人中文综合| 欧美激情一区在线| 国产成人免费9x9x人网站视频| 欧美精品一区二区三区在线播放 | 国产人伦精品一区二区| 奇米精品一区二区三区在线观看 | 国产欧美日韩视频在线观看| 国产在线视频精品一区| 欧美不卡在线视频| 免费不卡在线视频| 91精品啪在线观看国产60岁| 天天色图综合网| 欧美女孩性生活视频| 亚洲大尺度视频在线观看| 在线精品视频一区二区| 亚洲国产中文字幕在线视频综合 | 欧美午夜精品理论片a级按摩| 亚洲欧洲日韩在线| 99国产欧美另类久久久精品| 亚洲欧洲精品一区二区三区不卡| 一本色道久久综合亚洲91 | 日韩不卡一二三区| 欧美一级片免费看| 韩国女主播一区| 亚洲国产高清在线观看视频| av网站一区二区三区| 亚洲日本va午夜在线影院| 91日韩精品一区| 亚洲色欲色欲www在线观看| 91黄色在线观看| 午夜激情综合网| 欧美一区永久视频免费观看| 国产最新精品精品你懂的| 中文av一区特黄| 欧洲精品视频在线观看| 日本vs亚洲vs韩国一区三区二区 | 国产99一区视频免费| 亚洲三级久久久| 在线播放一区二区三区| 国产一区二区0| 一区二区三区在线影院| 欧美一区二区视频免费观看| 国产成人8x视频一区二区 | 粉嫩av一区二区三区| 亚洲三级电影网站| 91精品国产综合久久国产大片| 韩国精品久久久| 亚洲老司机在线| 欧美成人在线直播| 99热这里都是精品| 久久精品二区亚洲w码| 中文一区在线播放| 91精选在线观看| 波多野结衣一区二区三区| 日韩av中文字幕一区二区| 欧美国产禁国产网站cc| 欧美精品久久一区| 99视频热这里只有精品免费| 蜜桃视频一区二区三区在线观看| 国产精品久久久久9999吃药| 欧美一区二区三区婷婷月色| 91免费观看在线| 国产成人在线视频网址| 午夜不卡av免费| 综合久久久久综合| 久久久亚洲高清| 在线播放一区二区三区| 色综合欧美在线| 国产精一区二区三区| 手机精品视频在线观看| 亚洲欧美自拍偷拍| 久久色在线观看| 欧美一级日韩一级| 欧美日韩一二区| 在线观看视频欧美| 色综合天天性综合| 成人免费观看视频| 国产成人精品网址| 国产自产2019最新不卡| 日韩av二区在线播放| 亚洲福中文字幕伊人影院| 亚洲视频每日更新| 国产精品久久久久久久久快鸭| 日韩你懂的在线播放| 欧美一区二区啪啪| 欧美精品自拍偷拍| 欧美日韩国产综合视频在线观看| 一本色道a无线码一区v| 波多野结衣91| 97久久精品人人爽人人爽蜜臀| 国产91富婆露脸刺激对白| 国产米奇在线777精品观看| 国内精品国产三级国产a久久| 久久精品国产99国产| 狠狠色狠狠色综合日日91app| 另类欧美日韩国产在线| 久久99久久久久| 开心九九激情九九欧美日韩精美视频电影 | 粉嫩av一区二区三区在线播放| 韩日欧美一区二区三区| 精品一二线国产| 国产精品一级片| 成人永久免费视频| 成人不卡免费av| 色婷婷激情一区二区三区| 色综合天天综合在线视频| 欧美怡红院视频| 91麻豆精品国产91久久久久| 欧美一区二区在线免费观看| 日韩欧美的一区| 欧美激情一区二区在线| 亚洲欧美视频在线观看| 亚洲mv大片欧洲mv大片精品| 日韩在线a电影| 国产美女在线精品| 成人黄色一级视频| 色呦呦一区二区三区| 欧美日韩亚洲高清一区二区| 欧美一区二区三区在线观看视频| 精品国产乱码久久久久久浪潮 | 国产精品视频一二| 亚洲另类一区二区| 五月婷婷另类国产| 国产乱子伦一区二区三区国色天香 | 一区二区三区四区高清精品免费观看| 亚洲综合小说图片| 麻豆91在线看| 99久久国产综合色|国产精品| 欧美日韩在线综合| 2020国产成人综合网| 亚洲精品国产高清久久伦理二区|