国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    手機流暢運行470億大模型:上交大發布LLM手機推理框架PowerInfer-2,提速29倍

    2024年06月12日 15:34:42 來源:量子位公眾號

      蘋果一出手,在手機等移動設備上部署大模型不可避免地成為行業關注焦點。

      然而,目前在移動設備上運行的模型相對較小(蘋果的是 3B,谷歌的是 2B),并且消耗大量內存,這在很大程度上限制了其應用場景。

      即使是蘋果,目前也需要與 OpenAI 合作,通過將云端 GPT-4o 大模型嵌入到操作系統中來提供能力更強的服務。

      這樣一來,蘋果的混合方案引起了非常多關于數據隱私的討論和爭議,甚至馬斯克都下場討論

      如果蘋果在操作系統層面集成 OpenAI,那么蘋果設備將被禁止在我的公司使用。這是不可接受的安全違規行為。

      既然終端側本地部署大模型的方案既讓手機用戶享受到 AI 強大的智能,又能保護好自己的隱私安全,為什么蘋果還要冒著侵犯隱私的風險選擇聯手 OpenAI 采用云端大模型呢?主要挑戰有兩點:

      手機內存不夠大:按照大模型的 Scaling Law 法則,模型參數越大,能力對應的也就越強,這就意味著能力更強的模型對內存的要求越高。

      手機算力不夠強:即使勉強把通過量化等手段把模型塞進手機了,推理速度也慢,適合的應用場景也就非常有限了。

      為了解決上述挑戰,上海交大 IPADS 實驗室推出了面向手機的大模型推理引擎(目前論文已在 arxiv 公開):PowerInfer-2.0

      PowerInfer-2.0 能夠在內存有限的智能手機上實現快速推理,讓 Mixtral 47B 模型在手機上達到11 tokens/s的速度。

      與熱門開源推理框架 llama.cpp 相比,PowerInfer-2.0 的推理加速比平均達到 25 倍,最高達 29 倍

      為了充分釋放出 PowerInfer-2.0 框架的最大潛力,上海交大團隊還提出了配套的大模型優化技術Turbo Sparse,相關論文近期也上傳了 arxiv,并且已經在業內引起關注。

      另外值得一提的是,去年底上海交大團隊提出了針對 PC 場景的快速推理框架 PowerInfer-1.0,在 4090 等消費級顯卡的硬件上,實現了比 llama.cpp 高達 11 倍的推理加速,曾連續三天登頂 GitHub 趨勢榜,5 天獲得了 5k 的 GitHub star,目前已達到 7.1k star。

      相比 PC,手機的內存和算力受到的約束更多,那么這次的 PowerInfer-2.0 是如何針對手機場景加速大模型推理呢?

      動態神經元緩存

      首先,針對手機運行內存(DRAM)不足的問題,PowerInfer-2.0 利用了稀疏模型推理時的一個特點:每次只需要激活一小部分神經元,即 " 稀疏激活 "。沒有被激活的神經元即使不參與 AI 模型的推理計算,也不會對模型的輸出質量造成影響。

      稀疏激活為降低模型推理的內存使用創造了新的機會。為了充分利用稀疏激活的特性,PowerInfer-2.0 把整個神經網絡中的神經元分成了冷、熱兩種,并在內存中基于 LRU 策略維護了一個神經元緩存池。

      近期頻繁激活的 " 熱神經元 " 被放置在運行內存中,而 " 冷神經元 " 只有在被預測激活的時候,才會被拉進內存,大幅降低了內存使用量。

      其實冷熱神經元分類,是繼承自 PowerInfer-1.0 已有的做法。

      而在去年 12 月,蘋果在面向端側的大語言模型推理方案 "LLM in a Flash" 中提出了和神經元緩存類似的 " 滑動窗口 " 技術。但這些工作主要針對的都是 PC 環境,直接遷移到手機環境,還會遇到新的難題。

      首先手機平臺的硬件條件遠不及 PC,無論是算力、內存總量還是存儲帶寬,都與 PC 存在較大差距。

      其次,手機硬件平臺存在CPU、GPU、NPU 三種異構的計算單元,十分復雜。各大硬件平臺宣發時都會強調一個總算力,實際上是把 CPU、GPU、NPU 提供的算力加起來。然而真正跑起大模型來,能不能高效利用各種異構算力還是個問題。

      以神經元簇為粒度的異構計算

      針對這一點,PowerInfer-2.0 進一步把粗粒度的大矩陣計算分解成細粒度的 " 神經元簇 "

      每個神經元簇可以包含若干個參與計算的神經元。對于不同的處理器,會根據處理器的特性來動態決定劃分出來的神經元簇的大小

      例如,NPU 擅長于做大矩陣的計算,那么可以把所有神經元合并成一個大的神經元簇,一起交給 NPU 計算,這樣就可以充分利用 NPU 的計算能力。而在使用 CPU 時,可以拆出多個細粒度的神經元簇,分發給多個 CPU 核心一起計算。

      具體而言,PowerInfer-2.0 為模型推理的預填充階段(Prefill)和解碼階段(Decoding)分別設計了兩套神經元簇的劃分方案:

      預填充階段會一次性輸入很多 token,基本上絕大部分神經元都會被激活,因此選擇使用大神經元簇交給 NPU 計算。CPU 此時也沒有閑著,在后臺為 NPU 執行反量化模型權重的操作。

      解碼階段每次只有一個 token,具有較高的稀疏性,因此更加適合劃分成若干細粒度的神經元簇,交給 CPU 靈活調度和執行計算。

      神經元簇這一概念除了能夠更好的適應手機的異構計算環境,還能天然地支持計算與存儲 I/O 的流水線并行執行。

      PowerInfer-2.0 提出了分段神經元緩存和神經元簇級的流水線技術,在一個神經元簇等待 I/O 的同時,可以及時地把另一個已經準備好的神經元簇調度到處理器上進行計算,從而充分隱藏了 I/O 的延遲。

      同時,這種基于神經元簇的流水線打破了傳統推理引擎中逐矩陣計算的方式,可以允許來自不同參數矩陣的神經元簇交錯執行,達到最高的并行效率。

      I/O 加載神經元的速度對于模型推理也至關重要。

      分段緩存會針對不同的權重類型采取不同策略(如注意力權重、預測器權重、前饋網絡權重)采取不同的緩存策略,提高緩存命中率,減少不必要的磁盤 I/O

      緩存還會使用 LRU 替換算法動態更新每個神經元的實際冷熱情況,確保緩存中放著的都是最熱的神經元。此外 PowerInfer-2.0 還針對手機 UFS 4.0 存儲的性能特點,設計了專門的模型存儲格式,提高讀取性能。

      最后再來看一下實測成績,使用一加 12 和一加 Ace 2 兩款測試手機,在內存受限的情況下,PowerInfer-2.0 的預填充速度都顯著高于 llama.cpp 與 LLM in a Flash(簡稱 "LLMFlash" ) :

      解碼階段同樣是 PowerInfer-2.0 占據很大優勢。特別是對于 Mixtral 47B 這樣的大模型,也能在手機上跑出 11.68 tokens/s 的速度:

      而對于 Mistral 7B 這種可以放進手機運行內存的模型,PowerInfer-2.0 可以節約 40% 內存的情況下,達到與 llama.cpp 和 MLC-LLM 同水平甚至更快的解碼速度:

      PowerInfer-2.0 是一個模型 - 系統協同設計的方案,也就是需要模型中可預測稀疏性的配合。

      如何以低成本的形式調整模型以適配 PowerInfer-2.0 框架,也是一個重大挑戰。

      低成本高質量地大幅提升模型稀疏性

      傳統簡單的 ReLU 稀疏化會給模型原本的能力造成不小的影響。

      為了克服這個問題,上海交大 IPADS 聯合清華和上海人工智能實驗室提出一個低成本地稀疏化方法,不僅大幅提升模型的稀疏性,還能保持住模型原本的能力!

      首先,論文深入分析了模型稀疏化中的問題:

      在類 LLaMA 模型中中簡單引入 ReLU,雖然能引入一定程度的稀疏性,但稀疏度仍然有限

      稀疏化過程由于訓練語料的不足和訓練 token 的不足導致模型精度下降的問題。

      為了提升模型的稀疏度,論文在 ReLU 基礎上提出dReLU 激活函數,采用替換原有激活函數后繼續預訓練的方式增加模型稀疏性。

      將 SwiGLU 替換為 dReLU 一方面直觀地提高了輸出值中的零元素比例,另一方面能更有效地在稀疏化的過程中復用原本模型訓練完成的 gate 和 up 矩陣權重。

      為了克服模型能力下降的問題,團隊收集了包括網頁、代碼和數學數據集在內的多樣化繼續訓練語料庫。高質量、多樣化的訓練數據有助于模型在稀疏化后更好地保持和提升性能。

      最后,團隊訓練了 2 個 TurboSparse 大模型進行驗證,分別是 8x7B 和 7B 的大模型。得益于高質量的繼續訓練語料,TurboSparse 系列模型模型的精度甚至還能反超原版模型(具體見表 6)。

      而在稀疏度方面效果也非常顯著。相比于原本的 Mixtral 模型需要激活 13B 參數量,TurboSparse-Mixtral 只需要激活 4.3B 的參數量,激活的參數量是原本模型的三分之一

      而關于稀疏化過程的成本問題,TurboSparse 論文中介紹,改造過程中模型需要繼續訓練 150B tokens,相比于預訓練(假設 3T tokens)還不到 5%,說明其成本是很低的。

      讓技術加速走出實驗室

      從推理框架和改造模型兩個角度出發,上海交大團隊的成果實現了大語言模型在手機等資源受限場景下的快速推理。

      而且這套方案的潛力不止于手機,未來在車載設備、智能家居等方向還有更多應用前景。

      最后再正式介紹一下團隊。上海交通大學并行與分布式系統研究所(簡稱 IPADS),由陳海波教授領導,現有 13 名教師,100 多名學生。

      IPADS 長期從事計算機系統的研究,近 10 年在權威榜單 CSRankings 的 Operating Systems 領域排名全球前二,僅次于 MIT;上海交大也是排名前十中唯一上榜的亞洲高校。

      目前,上海交大 IPADS 已經在 Huggingface 上開放了稀疏化的模型權重。在未來,如果 PowerInfer-2.0 能夠與手機廠商進一步緊密合作,相信可以加速相關技術走出實驗室,落地到各種真實場景。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    欧美一二三四区在线| 国产精品免费丝袜| 国产宾馆实践打屁股91| 天天色图综合网| 无吗不卡中文字幕| 午夜久久久久久电影| 亚洲精品乱码久久久久| 亚洲一区二区在线免费看| 亚洲电影中文字幕在线观看| 亚洲人成亚洲人成在线观看图片 | 欧美电影免费观看高清完整版在线观看 | 91免费观看视频在线| 97精品国产露脸对白| 在线视频你懂得一区| 欧美日韩精品电影| 欧美不卡在线视频| 中文字幕乱码日本亚洲一区二区| 亚洲视频香蕉人妖| 天天综合天天综合色| 毛片av一区二区| 成人激情免费电影网址| 欧美视频你懂的| 久久只精品国产| 国产精品日韩成人| 亚洲一区在线视频观看| 免费看日韩精品| 成人av免费在线| 欧美日本在线播放| 久久精品亚洲一区二区三区浴池 | 国产99久久久国产精品| 99精品久久久久久| 日韩精品久久久久久| 国产精品一区二区免费不卡| 色综合天天视频在线观看| 欧美日韩大陆一区二区| 久久久久国产精品麻豆| 一区二区高清在线| 国产中文字幕一区| 欧美在线短视频| 日本一区二区三区免费乱视频| 亚洲高清免费一级二级三级| 国产电影一区二区三区| 欧美日本一道本| 国产精品久久久久影视| 免费看日韩精品| 91极品视觉盛宴| 国产亚洲精久久久久久| 天堂久久久久va久久久久| 成人ar影院免费观看视频| 日韩欧美国产三级电影视频| 一区二区在线免费观看| 国产大片一区二区| 欧美不卡在线视频| 亚洲mv在线观看| 97国产一区二区| 欧美激情一区二区三区不卡| 久久99精品久久只有精品| 欧美日韩1234| 亚洲五月六月丁香激情| 成人黄色777网| 精品久久人人做人人爽| 三级精品在线观看| 欧美色大人视频| 亚洲码国产岛国毛片在线| 粉嫩欧美一区二区三区高清影视| 精品国产电影一区二区| 美洲天堂一区二卡三卡四卡视频| 欧美日韩视频一区二区| 一区二区三区久久| 色婷婷av久久久久久久| 中文字幕一区视频| 99热精品国产| 中文字幕在线不卡一区| 成人app网站| 国产精品麻豆久久久| 成人激情动漫在线观看| 国产清纯在线一区二区www| 国产在线精品一区二区三区不卡 | 麻豆91小视频| 精品久久一区二区三区| 久久精品久久精品| 欧美sm美女调教| 国产又粗又猛又爽又黄91精品| 欧美哺乳videos| 精品一区二区三区欧美| 欧美精品一区二区高清在线观看 | 亚洲欧美日韩国产手机在线 | 制服丝袜成人动漫| 秋霞午夜av一区二区三区| 欧美一级xxx| 国产一区视频在线看| 国产欧美精品一区aⅴ影院| 成人免费va视频| 亚洲女人的天堂| 欧美精品国产精品| 精品一区二区免费视频| 亚洲国产精品激情在线观看| 99re这里只有精品首页| 亚洲午夜精品一区二区三区他趣| 91精品国产美女浴室洗澡无遮挡| 麻豆国产精品官网| 欧美经典三级视频一区二区三区| 色综合av在线| 蜜臀av一级做a爰片久久| 国产性色一区二区| 欧美中文字幕一区二区三区亚洲| 日本系列欧美系列| 国产欧美日韩激情| 欧美午夜片在线观看| 韩日av一区二区| **性色生活片久久毛片| 欧美美女bb生活片| 国产呦精品一区二区三区网站| 中文字幕第一区二区| 欧美亚洲综合色| 国产在线精品免费| 亚洲一区av在线| 国产亚洲精品bt天堂精选| 色婷婷av一区二区三区软件| 日韩国产在线观看一区| 欧美mv和日韩mv的网站| 色域天天综合网| 精品在线视频一区| 亚洲欧美日韩国产成人精品影院| 91精品国产综合久久小美女| 国产精品888| 亚洲va韩国va欧美va精品| 欧美—级在线免费片| 欧美日韩国产影片| 国产91精品精华液一区二区三区| 亚洲福利一区二区| 久久久久久久久97黄色工厂| 色综合色狠狠天天综合色| 韩国三级中文字幕hd久久精品| 中文字幕制服丝袜成人av| 欧美人妇做爰xxxⅹ性高电影| 波多野结衣在线一区| 免费视频最近日韩| 亚洲另类中文字| 久久综合国产精品| 欧美日韩精品综合在线| 91色porny在线视频| 国产原创一区二区| 日韩高清不卡一区二区| 亚洲人成亚洲人成在线观看图片| 欧美一级片免费看| 91高清视频在线| 成人av午夜影院| 韩国一区二区三区| 日韩综合小视频| 亚洲综合成人在线| 国产欧美在线观看一区| 欧美一二三区精品| 欧美性猛交xxxx乱大交退制版 | 亚洲免费在线播放| 久久久99免费| 日韩你懂的在线观看| 欧美一区二区三区视频在线观看| 成人动漫中文字幕| 精品一区二区三区在线观看 | 国产精品不卡视频| 亚洲精品一区二区三区精华液| 在线成人免费观看| 欧美亚洲一区三区| 欧美性一级生活| 99精品久久久久久| 9久草视频在线视频精品| 国产精品18久久久久久久久| 久久精品理论片| 激情欧美一区二区三区在线观看| 亚洲第一在线综合网站| 亚洲人妖av一区二区| 亚洲色图在线视频| 亚洲女爱视频在线| 午夜精品一区二区三区电影天堂 | 在线不卡免费欧美| 欧美三级午夜理伦三级中视频| 色综合av在线| 欧美色倩网站大全免费| 欧美视频在线不卡| 7799精品视频| 欧美丰满一区二区免费视频| 日韩欧美www| 久久无码av三级| 欧美激情一区二区三区蜜桃视频 | 国产视频一区不卡| 国产精品入口麻豆原神| 亚洲欧美自拍偷拍色图| 亚洲国产精品影院| 亚洲国产精品尤物yw在线观看| 五月综合激情网| 国产一区二区三区国产| 成人伦理片在线| 欧美福利视频一区| 国产欧美一二三区| 亚洲欧美日韩国产手机在线| 亚洲影视在线观看| 免费成人在线网站| 国产高清在线观看免费不卡| 99re热这里只有精品免费视频|