田淵棟團隊最新發表的論文解決了大型語言模型在實際部署中遇到的內存和輸入長度限制的問題,將推理系統的吞吐量提高了近30倍。論文提出了一種實現KV緩存的新方法,通過識別和保留重要的tokens,顯著減少了內存占用,并在長輸入序列的任務中表現良好。
這篇論文的研究對象是大型語言模型(LLM),該模型在實際部署中面臨著KV緩存成本昂貴和對長序列的泛化能力差的問題。為了解決這些問題,田淵棟團隊提出了一種基于重要tokens的KV緩存逐出策略,通過識別并保留對生成結果有重要貢獻的tokens,顯著減少了內存占用,并提高了模型在處理長輸入序列時的表現。

在實驗中,作者使用了OPT、LLaMA和GPT-NeoX等模型驗證了他們提出的方法的準確性和有效性。實驗結果顯示,通過使用該方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個推理系統的吞吐量分別提高了29倍、29倍和3倍,且在相同的批量大小下,延遲最多可以減少1.9倍。
通過研究發現,大部分注意力鍵和值嵌入在生成過程中貢獻較少的價值,只有一小部分tokens貢獻了大部分的價值。基于這個發現,作者提出了一種基于重要tokens的KV緩存逐出策略,動態保持最近的tokens和重要tokens的平衡。通過使用這種策略,可以顯著減少KV緩存的大小,從而降低了內存占用,并提高了模型的推理效率。
綜上所述,田淵棟團隊的最新論文成功解決了大型語言模型在實際部署中的難題,通過優化KV緩存的實現方法,將推理系統的吞吐量提高了近30倍。這一成果在NeurIPS'23上將進行展示,對于大型語言模型的部署和應用具有重要的意義。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。