近日,微軟研究人員提出的 LongRoPE 方法首次將預訓練的大型語言模型(LLM)的上下文窗口擴展至2048k 個 token,實現了8倍的擴展同時保持原始短上下文窗口的性能,而無需進行架構變化和復雜微調。
該方法的關鍵創新點包括通過高效搜索識別并利用了位置插值中的兩種非均勻性,為微調提供更好的初始化,并在非微調情況下實現了8倍擴展;引入了漸進擴展策略,首先微調256k 長度的 LLM,然后在微調擴展的 LLM 上進行第二次位置插值,以實現2048k 上下文窗口;在8k 長度上重新調整 LongRoPE 以恢復短上下文窗口性能。
實驗結果表明,LongRoPE 方法成功將 LLM 的上下文窗口擴展至2048k,并在256k 的范圍內展現出整體困惑度下降的趨勢,同時在較短長度內保持與基線相當或更好的困惑度。這一突破性的方法為語言模型的性能提升帶來了新的可能性,也為未來的研究和應用奠定了堅實的基礎。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。