国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

華為Mate 80風(fēng)扇版缺席:因某些原因未能量產(chǎn)落地聯(lián)力新款SP V2系列電源首發(fā)699元起:拉絲鋁制外殼、FDB風(fēng)扇三星內(nèi)存漲價(jià):手機(jī)/電腦抓緊時(shí)間買(mǎi)了智元機(jī)器人:自研機(jī)器人操作系統(tǒng)“靈渠 OS”計(jì)劃年底正式開(kāi)源京東正式推出“七鮮咖啡”:主打“只用鮮奶”,每周開(kāi)出5家新店首款高端MPV正式定名 11月21日廣州全球首秀蔚來(lái)ES6 30萬(wàn)臺(tái)紀(jì)念版上市:34.98萬(wàn)起蜂巢能源董事長(zhǎng):新能源汽車起火事故中 三元熱失控占比70%一升油發(fā)3.73度電 廣汽埃安首款增程i60上市:10.48萬(wàn)起開(kāi)卷榮耀500系列配置全面出爐:續(xù)航強(qiáng)但影像短板,11月24日發(fā)布會(huì)華為Mate 80系列發(fā)布會(huì)官宣!新設(shè)計(jì)很特別,Pro Max致敬經(jīng)典OPPO Find X9 Pro翻車?用戶評(píng)分排名墊底,2億像素也拉胯《騰訊大摜蛋》殺入賽事賽道,一個(gè)“賽事中臺(tái)”的野心浮出水面四電機(jī)3019馬力,比亞迪仰望U9 Xtreme純電超跑廣州車展全球首秀阿里千問(wèn)APP開(kāi)啟公測(cè):直面ChatGPT,全面沖刺C端AI市場(chǎng)P圖只用一句話,小米超級(jí)小愛(ài)AI大模型“隨心修圖”上線JetBrains發(fā)布AI編碼智能體基準(zhǔn)測(cè)試平臺(tái)DPAI Arena全球人形機(jī)器人出貨量未來(lái)5年復(fù)合增長(zhǎng)率高達(dá)69.7%鄔賀銓:面向6G智能體終端,將孕育催生全新的操作系統(tǒng)小鵬汽車 Q3 營(yíng)收同比翻倍至 203.8 億元,同比增長(zhǎng)102%
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    只激活3.8B參數(shù),性能比肩同款7B模型!訓(xùn)練微調(diào)都能用,來(lái)自微軟

    2024年07月18日 14:29:55 來(lái)源:量子位公眾號(hào)

      只需激活60%的參數(shù),就能實(shí)現(xiàn)與全激活稠密模型相當(dāng)?shù)男阅堋?/p>

      微軟亞洲研究院的一項(xiàng)新研究,實(shí)現(xiàn)了模型的完全稀疏激活,讓推理成本大幅下降。

      而且適用范圍廣泛,無(wú)論是從頭訓(xùn)練、繼續(xù)訓(xùn)練還是微調(diào),都能提供有效支持。

      該方法名為Q-Sparse,在神經(jīng)元級(jí)別上實(shí)現(xiàn)了模型稀疏化,相比于其他方式粒度更細(xì),在相同推理開(kāi)銷下,無(wú)論性能還是稀疏率都更好。

      名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術(shù),適用于各種量化方式的模型。

      作者進(jìn)一步表示,如果把Q-Sparse與模型量化技術(shù)結(jié)合,還可以實(shí)現(xiàn)更大程度的降本增效。

      另外在研究Q-Sparse的同時(shí),團(tuán)隊(duì)也對(duì)參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進(jìn)行了深入探尋,并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”

      有網(wǎng)友認(rèn)為,這項(xiàng)技術(shù)確實(shí)不錯(cuò),而且比ReLU要更好。

      還有人開(kāi)啟了許愿模式,表示如果(AMD的)ROCm能比英偉達(dá)更快支持這項(xiàng)技術(shù)就好了。

      用Top-K函數(shù)實(shí)現(xiàn)稀疏化

      Q-Sparse所做的最核心的操作,是對(duì)輸入的張量應(yīng)用Top-K稀疏化函數(shù)

      具體來(lái)說(shuō),Transformer架構(gòu)在注意力層和前饋層中都使用nn.Linear線性層(矩陣乘法)進(jìn)行投影,可以表示為Y=X·W^T。(其中X就是輸入張量,W代表其權(quán)重,Y為輸出張量)

      Q-Sparse中,對(duì)于一個(gè)輸入激活張量X,首先會(huì)計(jì)算其絕對(duì)值|X|并進(jìn)行排序,找出其中絕對(duì)值最大的K個(gè)元素

      這里的K是預(yù)先設(shè)定的超參數(shù),決定了稀疏化的程度。

      之后Q-Sparse會(huì)創(chuàng)建一個(gè)與X形狀相同的二進(jìn)制掩碼張量M,對(duì)于一系列|X|中絕對(duì)值最大的K個(gè)元素對(duì)應(yīng)的位置,將M中的相應(yīng)位置設(shè)置為1,其余位置設(shè)置為0。

      接著,將輸入張量X與掩碼張量M進(jìn)行Hadamard積(逐元素相乘)運(yùn)算,就得到了稀疏化的張量X_sparse

      在前向傳播過(guò)程中,稀疏化后的張量X_sparse將代替原始的輸入張量X參與后續(xù)的計(jì)算(如矩陣乘法)。

      由于X_sparse中大部分元素已經(jīng)被設(shè)置為零,因此可以顯著減少計(jì)算量和內(nèi)存帶寬需求。

      在反向傳播過(guò)程中,Q-Sparse使用了直通估計(jì)器(Straight-Through Estimator,STE)來(lái)計(jì)算Top-K函數(shù)的梯度。

      傳統(tǒng)的訓(xùn)練方式中,通常需要計(jì)算損失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)的梯度,并使用梯度下降法更新參數(shù)以最小化損失。

      但當(dāng)網(wǎng)絡(luò)中存在量化、Top-K等一些不可微的操作時(shí),梯度的計(jì)算就會(huì)遇到問(wèn)題,因?yàn)檫@些操作的輸出對(duì)輸入的梯度在大多數(shù)點(diǎn)上都是0,導(dǎo)致梯度無(wú)法有效傳播。

      STE通過(guò)直接將梯度傳遞給稀疏化之前的張量,避免了梯度消失的問(wèn)題。

      一般的反向傳播中,損失函數(shù)L對(duì)x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x,但由于不可微分無(wú)法直接計(jì)算。

      STE的解決方案是只計(jì)算損失函數(shù)對(duì)稀疏化張量y的梯度,然后將其直接復(fù)制給原始張量x,也就是直接將∂L/∂y作為∂L/∂x的估計(jì)。

      有/無(wú)STE時(shí)的梯度比較

      對(duì)于前饋層,Q-Sparse使用平方ReLU函數(shù)代替常規(guī)的ReLU激活函數(shù),平方運(yùn)算可以進(jìn)一步提高激活的稀疏性(⊙表示Hadamard積)。

      另外,為了適配量化模型,Q-Sparse在應(yīng)用Top-K稀疏化之前,會(huì)先對(duì)輸入張量進(jìn)行量化,以確保稀疏化操作與量化表示兼容,其函數(shù)表示如下:

      其中,ε是一個(gè)小常數(shù),用于避免出現(xiàn)分母為零的情況。

      特別的,對(duì)于1-bit量化的權(quán)重,Q-Sparse使用以下量化函數(shù),其中α是權(quán)重張量W的平均絕對(duì)值。

      60%激活參數(shù)達(dá)到相同效果

      對(duì)比實(shí)驗(yàn)表明,無(wú)論是稀疏率還是模型表現(xiàn),Q-Sparse都顯著優(yōu)于此前的ReLU方法。

      針對(duì)Q-Sparse的具體效果,作者對(duì)其在從頭訓(xùn)練、繼續(xù)訓(xùn)練和微調(diào)三項(xiàng)任務(wù)上的性能進(jìn)行了評(píng)估。

      從頭訓(xùn)練實(shí)驗(yàn)使用的模型為L(zhǎng)lama,結(jié)果在700M和7B模型上,使用70% top-K(即40%的整體稀疏率)的Q-Sparse可以達(dá)到與密集baseline相當(dāng)?shù)挠?xùn)練損失。

      繼續(xù)訓(xùn)練的目的是將稠密模型稀疏化,這里的實(shí)驗(yàn)對(duì)象是Mistral-7B。

      結(jié)果,在激活參數(shù)為2.9B和3.8B的情況下,模型在ARC、MMLU等數(shù)據(jù)集中的得分均未發(fā)生明顯下降。

      在微調(diào)實(shí)驗(yàn)中,對(duì)于Qwen-7B和Mistral-7B兩種模型,Q-Sparse顯示出了與繼續(xù)訓(xùn)練相似的結(jié)果,用60%左右的激活參數(shù)實(shí)現(xiàn)了與密集模型十分接近的表現(xiàn)。

      這些結(jié)果意味著,在相同的性能下,與密集模型相比,稀疏激活模型在推理過(guò)程中可以顯著減少激活參數(shù),進(jìn)而降低消耗FLOPS的數(shù)量。

      對(duì)于量化模型,團(tuán)隊(duì)在自研的BitNet b1.58模型上應(yīng)用了Q-Sparse,并在多個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和評(píng)估。

      可以看到,在700M和7B兩種規(guī)模下,使用Q-Sparse的量化模型的收斂速度和最終損失函數(shù)值與未使用Q-Sparse的量化模型(BitNet b1.58)相當(dāng)。

      這說(shuō)明Q-Sparse可以無(wú)縫集成到量化模型中,而不會(huì)顯著影響模型的訓(xùn)練和收斂。

      據(jù)此作者認(rèn)為,將Q-Sparse與量化技術(shù)相結(jié)合,可以進(jìn)一步提高大語(yǔ)言模型在推理階段的效率。

      發(fā)現(xiàn)推理優(yōu)化新“Scaling Law”

      除了測(cè)評(píng)這些模型采取稀疏激活時(shí)的表現(xiàn),作者也對(duì)模型性能、規(guī)模和稀疏率三者之間的關(guān)系進(jìn)行了探究,并有了一些新的發(fā)現(xiàn)。

      稀疏激活模型的性能縮放定律: 作者發(fā)現(xiàn),與密集模型類似,稀疏激活模型的性能也遵循一個(gè)冪律縮放關(guān)系。

      具體來(lái)說(shuō),給定稀疏率S,模型在收斂時(shí)的損失函數(shù)值L(N,S)可以用以下公式近似:

      其中,N是模型參數(shù)的數(shù)量;E是一個(gè)常數(shù),表示模型在無(wú)限大時(shí)的損失;A(S)是一個(gè)與稀疏率S有關(guān)的縮放因子。

      這個(gè)縮放定律表明,稀疏激活模型的性能隨著模型規(guī)模的增大而提高,但提高的速度會(huì)逐漸變慢

      同時(shí)作者發(fā)現(xiàn),模型的性能也會(huì)受到稀疏率的影響。

      在參數(shù)規(guī)模與性能之間關(guān)系的部分提到,A(S)是一個(gè)與稀疏率S有關(guān)的縮放因子,可以用以下公式近似:

      其中B和C是常數(shù),β是一個(gè)控制指數(shù)衰減速度的參數(shù)。

      這個(gè)公式表明,當(dāng)稀疏率S增大(模型變得更稀疏)時(shí),意味著更高的稀疏率會(huì)導(dǎo)致性能的下降,下降的速度是指數(shù)級(jí)的。

      基于上述發(fā)現(xiàn),作者得出了一個(gè)推理最優(yōu)的稀疏率S*,能在預(yù)算(推理時(shí)的浮點(diǎn)操作數(shù))一定時(shí),實(shí)現(xiàn)模型損失函數(shù)值的最小化。

      對(duì)于全精度(FP32)模型,最優(yōu)稀疏率約為45.58%;而低精度(如1.58-bit)模型的最優(yōu)稀疏率則更高,約為61.25%。

      作者觀察到,隨著模型規(guī)模的增大,稀疏激活模型與密集模型之間的性能差距逐漸縮小。

      這可以從縮放定律中得到解釋:當(dāng)模型規(guī)模N趨于無(wú)窮大時(shí),稀疏激活模型的損失函數(shù)值趨于L(∞,S)=E,而密集模型的損失函數(shù)值趨于L(∞,0)=E。

      這意味著,在極大規(guī)模下,稀疏激活模型有可能達(dá)到與密集模型相當(dāng)?shù)男阅埽瑸樵O(shè)計(jì)和訓(xùn)練大規(guī)模稀疏激活模型提供了一個(gè)有用的參考。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    海報(bào)生成中...

    最新新聞

    熱門(mén)新聞

    即時(shí)

    全球頂級(jí)AI創(chuàng)作社區(qū)回歸!海藝AI國(guó)內(nèi)首發(fā)“全民娛樂(lè)化創(chuàng)作

    海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè),涵蓋寫(xiě)實(shí)、二次元、插畫(huà)、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場(chǎng)占比高達(dá)35.8%,阿里云引領(lǐng)中國(guó)AI云增長(zhǎng)

    9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。

    企業(yè)IT

    華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃,助力中小企

    9月24日,華為坤靈召開(kāi)“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái),同比增長(zhǎng)33%,顯示出品類強(qiáng)勁的市場(chǎng)需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    亚洲天堂精品视频| 亚洲激情图片qvod| 色噜噜夜夜夜综合网| 成人性生交大片免费看中文网站| 老司机午夜精品| 麻豆精品在线播放| 麻豆国产精品官网| 精品一区二区综合| 国产一区二区精品久久99| 麻豆精品新av中文字幕| 麻豆视频一区二区| 国产老肥熟一区二区三区| 麻豆成人久久精品二区三区小说| 久久国产精品免费| 国产成人亚洲精品青草天美 | 成人深夜在线观看| 91农村精品一区二区在线| 一本高清dvd不卡在线观看 | 中文字幕av不卡| 亚洲精选视频在线| 日韩电影免费在线看| 国产在线精品视频| 色综合天天综合网国产成人综合天| 欧美综合久久久| 色综合一个色综合亚洲| 欧美高清激情brazzers| xf在线a精品一区二区视频网站| 国产视频一区在线观看 | 欧美顶级少妇做爰| 久久嫩草精品久久久精品| 中文字幕一区二区三区蜜月| 亚洲国产精品视频| 久久99国内精品| 91在线免费视频观看| 日韩欧美在线123| 日韩一区在线播放| 日本aⅴ精品一区二区三区 | 国产亚洲自拍一区| 亚洲一区在线观看视频| 国产自产2019最新不卡| 欧美曰成人黄网| 久久精品一区蜜桃臀影院| 一区二区理论电影在线观看| 极品美女销魂一区二区三区免费| 91网站视频在线观看| 精品国免费一区二区三区| 一区二区免费看| 丁香五精品蜜臀久久久久99网站 | 亚洲婷婷国产精品电影人久久| 日韩福利电影在线| 91亚洲精品久久久蜜桃| 日韩视频在线永久播放| 亚洲综合激情网| 国产成人综合网站| 欧美一区二区福利在线| 亚洲精品中文在线观看| 国产乱对白刺激视频不卡 | 成人欧美一区二区三区视频网页| 强制捆绑调教一区二区| 91在线免费播放| 久久精品人人做| 琪琪一区二区三区| 欧美乱妇15p| 亚洲第一激情av| 色综合一个色综合亚洲| 国产精品色哟哟网站| 黄网站免费久久| 欧美一区二区三区啪啪| 一区二区三区日韩精品视频| 99久久精品免费看国产免费软件| 国内外成人在线| 欧美一区二区免费| 午夜精品在线视频一区| 欧美午夜精品一区二区蜜桃| 亚洲伦在线观看| 91免费看`日韩一区二区| 国产精品久久久久三级| 粉嫩欧美一区二区三区高清影视| 精品av久久707| 国产一区二区在线视频| 久久人人爽人人爽| 国产成人免费在线观看不卡| 国产网站一区二区三区| 高清在线不卡av| 中文字幕一区二区三区在线播放 | 亚洲激情中文1区| 一本色道久久加勒比精品| 一区二区中文视频| 色偷偷成人一区二区三区91| 一区二区视频在线看| 精品视频1区2区3区| 亚洲国产你懂的| 欧美一区二区三区在| 久久不见久久见免费视频1| 欧美成人激情免费网| 捆绑紧缚一区二区三区视频| 精品国产乱码久久| 国产精品18久久久久久久网站| 久久久精品2019中文字幕之3| 国产成人亚洲综合a∨猫咪| 国产精品电影一区二区| 欧美视频中文一区二区三区在线观看| 亚洲国产一区二区在线播放| 91精品国产色综合久久不卡蜜臀| 久久福利资源站| 国产精品久久久久影院老司| 色天天综合久久久久综合片| 亚洲123区在线观看| 精品国产一区二区三区久久影院| 国产99久久久国产精品免费看| 中文字幕中文字幕一区二区| 欧美亚洲动漫制服丝袜| 六月丁香婷婷色狠狠久久| 国产精品理论片在线观看| 日本丶国产丶欧美色综合| 日韩国产一区二| 国产亚洲va综合人人澡精品 | 精品一区二区三区蜜桃| 国产精品国产三级国产普通话蜜臀 | 欧美电影免费观看高清完整版 | 国产精品亚洲第一| 亚洲制服欧美中文字幕中文字幕| 日韩一区二区三区免费观看| 成人理论电影网| 毛片av一区二区三区| 亚洲欧美另类久久久精品2019| 日韩精品一区二区三区在线播放| 91日韩精品一区| 国产一区二区不卡在线| 亚洲18女电影在线观看| 中文字幕视频一区二区三区久| 日韩午夜激情免费电影| 一本大道久久精品懂色aⅴ| 极品少妇xxxx精品少妇偷拍| 亚洲一区二区三区四区五区黄 | 亚洲黄色录像片| 久久精品日韩一区二区三区| 欧美日韩五月天| k8久久久一区二区三区| 久久精品一级爱片| 欧美麻豆精品久久久久久| 成人av电影在线| 久草在线在线精品观看| 樱花影视一区二区| 国产精品青草综合久久久久99| 日韩一级在线观看| 欧美调教femdomvk| 91日韩一区二区三区| 成人爽a毛片一区二区免费| 九九精品一区二区| 日本一区中文字幕| 石原莉奈在线亚洲二区| 亚洲一区二区三区四区的| 国产精品嫩草99a| 国产午夜精品一区二区三区视频| 日韩欧美区一区二| 欧美一区二区三区白人| 在线不卡一区二区| 欧美丰满高潮xxxx喷水动漫| 欧美日韩精品一二三区| 欧美性欧美巨大黑白大战| 91福利在线看| 91精品1区2区| 欧美这里有精品| 欧美日韩国产综合一区二区| 欧美午夜不卡视频| 欧美日韩不卡一区| 欧美美女一区二区三区| 91精品综合久久久久久| 欧美一级免费大片| 欧美成人乱码一区二区三区| 精品88久久久久88久久久| 久久免费看少妇高潮| 日本一区二区免费在线| 欧美午夜不卡视频| 欧美体内she精视频| 欧美日韩国产一区二区三区地区| 欧美日韩电影一区| 日韩一区二区三区电影| 精品国产乱码久久久久久久 | 日本高清视频一区二区| 欧美三级中文字| 在线不卡欧美精品一区二区三区| 91麻豆精品国产| 久久久精品欧美丰满| 国产精品理论片在线观看| 一区二区三区小说| 日韩和欧美一区二区三区| 精品一区二区三区免费播放| 成人午夜激情在线| 欧美怡红院视频| 久久夜色精品一区| 亚洲欧洲av一区二区三区久久| 亚洲成人精品在线观看| 奇米一区二区三区av| 粉嫩蜜臀av国产精品网站| 欧美性欧美巨大黑白大战| 日韩精品一区二区三区四区视频| 中文字幕av一区二区三区高| 亚洲午夜在线电影|