国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    Kimi硬剛多模態滿血版o1,首曝訓練細節!強化學習scaling新范式誕生

    2025年01月21日 09:53:42 來源:新智元公眾號

      來了來了,月之暗面首個「滿血版o1」來了!這是除OpenAI之外,首次有多模態模型在數學和代碼能力上達到了滿血版o1的水平。

      還記得嗎,AI大神Karpathy曾說過,「英文是最熱門的編程語言」。

      兩年后的現在,這個規則徹底要被顛覆了。

      從今天起,中文很有可能成為全球最熱門的編程語言!

      就在剛剛,Kimi發布了k1.5 多模態思考模型。這是繼去年 11 月他們發布 k0-math 數學模型,12月發布 k1 視覺思考模型之后,連續第三個月帶來 k 系列強化學習模型的重磅升級。

      Kimi k1.5的性能,如今已經全面追上現役全球最強模型——OpenAI o1滿血版。

      具體來說,在Long CoT模式下,Kimi k1.5的數學、代碼、多模態推理能力,達到了長思考SOTA模型OpenAI o1滿血版的水平。這也是全球范圍內,首次有OpenAI之外的公司達到。

      而在Short CoT模式下,Kimi k1.5大幅領先GPT-4o 和Claude 3.5的水平。

      短COT模式下,數學成績顯著高于GPT-4o和Claude Sonnet 3.5

      同時,月之暗面也大方公開了這個滿血版o1水平的強化學習模型的訓練技術細節。

      簡單出奇跡,首創long2short思維鏈

      扒開Kimi k1.5 25頁技術報告,可以清晰看到這款模型的技術創新之處。

      當前,基于下一個token預測的語言模型,在計算規模上的擴展,已經得到了有效證明。

      但模型Scaling仍受限于可用的數據量,為此,Kimi團隊創新性地擴展了強化學習(RL)的應用,開辟出一條全新的路徑。

      它能夠讓LLM通過獎勵機制進行探索性學習,從而自主擴展訓練數據,從而實現計算規模有效擴展。

      論文地址:https://github.com/MoonshotAI/kimi-k1.5

      以下,是k1.5設計和訓練的四大關鍵要素:

      1. 長上下文擴展

      2. 改進的策略優化

      3. 簡化框架

      4. 多模態

      接下來,我們一起深挖一下這些技術細節吧。

      短CoT模型的上下文壓縮

      與業界普遍采用復雜技術做法不同,Kimi團隊選擇了一條更為優雅的技術路線——回歸第一性原理。

      他們證明了,無需依賴蒙特卡洛樹搜索、價值函數、過程獎勵模型,也能讓模型取得卓越的性能。

      如上所見,我們已經看到了Kimi k1.5在多個權威基準測試中,取得了顯著的突破。

      那么,long2short是如何被實現的呢?

      Kimi團隊認為,可以將長CoT模型的推理先驗轉移到短CoT模型中,從而即使在有限的測試Token預算下也能提高性能。

      模型合并

      將長CoT模型和短CoT模型進行合并,除了可以在泛化性上起到積極的作用,還可以提高Token的使用效率。

      這種方法通過簡單地平均兩個模型的權重,將一個長CoT模型與一個短模型結合,得到一個新的模型,而無需進行訓練。

      最短篩選采樣

      由于模型對于同一問題生成的響應長度變化很大,因此團隊設計了一種最短篩選采樣方法。

      也就是,先對同一問題采樣n次,然后選擇最短的正確響應進行監督微調。

      DPO

      利用長CoT模型生成多個響應樣本,然后選擇最短的正確解作為正樣本,并將較長的響應視為負樣本,包括正確但長度是選定正樣本1.5倍的較長響應。

      這些正負樣本對數據集形成了用于DPO訓練的成對偏好數據。

      long2short強化學習

      在標準強化學習訓練階段之后,團隊選擇了一個在性能與Token使用效率之間提供最佳平衡的模型作為基礎模型,并進行單獨的long2short強化學習訓練階段。

      在第二階段中,他們應用了「長度懲罰」,并顯著減少了最大展開長度,以進一步懲罰可能正確但超出期望長度的響應。

      強化學習基礎設施

      Kimi k1.5系統設計了一種迭代同步的RL框架,旨在通過持續的學習與適應來增強模型的推理能力。

      該系統的一項關鍵創新是引入了部分回滾(Partial Rollout)技術,用于減少計算開銷并優化復雜推理軌跡的處理。

      如下圖3a所示,RL訓練系統通過迭代同步的方法運行,每次迭代包含回滾階段和訓練階段。

      在回滾階段,由中央主控協調的回滾工作節點通過與模型交互生成回滾軌跡,這些軌跡是模型對各種輸入生成的響應序列。在隨后的訓練階段,訓練工作節點訪問這些經驗以更新模型的權重。

      這個循環過程使模型能夠持續從其行為中學習,隨著時間的推移調整其策略以提升性能。

      長CoT強化學習的部分回滾技術

      部分回滾(Partial Rollouts)能夠通過同時管理長軌跡和短軌跡的回滾,有效地解決處理長CoT特性時的資源分配和效率挑戰,進而實現長上下文強化學習(RL)訓練的規模擴展。

      該技術設定了一個固定的輸出Token預算,對每個回滾軌跡的長度進行限制。如果某個軌跡在回滾階段超過了Token限制,其未完成部分被保存到重放緩沖區,并在后續迭代中繼續處理。

      此外,由于回滾工作節點是異步運行的,當某些節點處理長軌跡時,其他節點可以獨立地處理新的短回滾任務。

      如圖3b所示,部分回滾系統通過在多次迭代中將長響應分解為多個片段來運行,顯著降低了計算開銷——系統無需一次性處理整個響應,而是逐步處理和存儲片段,從而在保持快速迭代時間的同時生成更長的響應。

      部分回滾的實現還提供了重復檢測功能。系統能夠識別生成內容中的重復序列并提前終止,從而減少不必要的計算,同時保持輸出質量。

      訓練與推理的混合部署

      研究者提出了一種用于訓練和推理任務的混合部署策略,該策略利用Kubernetes的Sidecar容器共享所有可用GPU,將兩種任務協同部署在同一個Pod中。這一策略的主要優勢包括:

      促進了資源的高效共享與管理,避免了訓練節點因等待推理節點而處于空閑狀態(當兩者部署在不同節點時)

      通過使用不同的部署鏡像,訓練和推理可以獨立迭代,從而實現更好的性能

      架構并不限于vLLM,還可以方便地集成其他框架

      如圖4所示,研究者在Megatron和vLLM的基礎上實現了這一混合部署框架,從訓練到推理階段不到一分鐘的轉換時間,反向轉換則約為十秒鐘。

      實驗結果

      由于k1.5是一個多模態模型,研究者對不同模態的各種基準進行了綜合評估;鶞蕼y試主要包括以下三類:

      Text Benchmark:MMLU, IF-Eval, CLUEWSC, C-EVAL

      Reasoning Benchmark:HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500

      Vision Benchmark:MMMU, MATH-Vision, MathVista

      k1.5長CoT模型

      Kimi的k1.5長CoT模型通過長CoT監督微調和視覺-文本聯合強化學習,在長距離推理上獲得了顯著的增強。

      評估顯示,模型在長上下文中的推理、理解和信息綜合能力方面有了顯著提升,標志著多模態AI能力的顯著進步。

      k1.5短CoT模型

      Kimi的k1.5短CoT模型集成了多種技術,包括傳統監督微調方法、強化學習以及長到短知識蒸餾。

      如表3所示,k1.5短CoT模型在覆蓋多個領域的多項任務中表現出與領先的開源和專有模型相當或更優的性能。

      長上下文Scaling

      研究者使用一個中型模型,來研究結合LLM的強化學習的擴展特性。如圖5所示,隨著訓練的進行,模型響應長度和性能準確率同時增加。

      尤其值得注意的是,在更具挑戰性的基準測試中,響應長度的增長更為陡峭,這表明模型在處理復雜問題時學會生成更詳盡的解決方案。

      圖6表明,模型輸出的上下文長度與其問題解決能力之間存在顯著的相關性。

      最終,k1.5模型的運行能支持128k上下文長度,并在困難的推理基準測試中持續取得改進。

      由長到短

      研究者重點研究了long2short問題中的Token效率,特別是長CoT模型如何提升短模型性能。

      如圖7所示,提出的long2short強化學習算法在Token效率方面優于其他方法(如DPO和模型合并)。

      值得注意的是,k1.5系列的所有模型(用橙色標記)在Token效率上都優于其他模型(用藍色標記)。

      思考模型,進入沖刺

      可以看到,在多模態推理技術路線上,Kimi又進了一步。

      從2024年11月,他們首次推出的數學推理模型K0-math就展現出了在數學領域的領先性。

      緊接著一個月后,K1視覺思考模型誕生,不僅繼承了K0-math的數學底蘊,更突破性地解鎖了視覺理解能力。

      這意味著,K1不僅「會算」,還能「會看」——通過理解圖片中的信息,并通過逐步推理得出答案。

      如今,k1.5又繼續向前推進了一步,在多個領域數理化、代碼、通用中,刷新了SOTA,甚至能夠媲美世界頂尖模型。

      下一步,Kimi依舊會發力多模態推理,繼續迭代出能夠在更多模態、更多領域、具備更強通用能力的Kn系列的模型。

      k1.5已經帶來了諸多驚喜,還真是有點期待下一代模型的到來。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    美国三级日本三级久久99| 福利电影一区二区三区| 久久久一区二区三区| 欧美人xxxx| 欧美体内she精高潮| 色呦呦国产精品| 91丨九色丨国产丨porny| 色婷婷av一区二区三区大白胸| 91在线视频官网| 欧美视频你懂的| 在线电影一区二区三区| 欧美大肚乱孕交hd孕妇| 亚洲精品一线二线三线| 国产免费成人在线视频| 成人免费一区二区三区视频| 亚洲在线免费播放| 日韩中文字幕一区二区三区| 久久精品国产色蜜蜜麻豆| 国产精品自拍毛片| 91美女片黄在线观看91美女| 欧美日韩一级片网站| 精品国产sm最大网站免费看| 中文一区二区在线观看| 亚洲精品免费在线| 热久久久久久久| 高潮精品一区videoshd| 欧美伊人久久久久久久久影院| 日韩一级在线观看| 国产精品国产三级国产有无不卡| 亚洲一区在线电影| 国产一区二区三区日韩 | 麻豆freexxxx性91精品| 韩国一区二区三区| 色综合天天综合狠狠| 91精品婷婷国产综合久久性色| 久久精品免费在线观看| 亚洲国产aⅴ天堂久久| 国产精品自拍在线| 欧美午夜在线一二页| 久久伊99综合婷婷久久伊| 亚洲精品欧美在线| 黄色日韩三级电影| 欧美三电影在线| 国产精品免费免费| 捆绑调教一区二区三区| 在线一区二区视频| 国产欧美精品一区二区色综合 | 国产老肥熟一区二区三区| 91免费观看视频在线| 日韩免费电影网站| 洋洋成人永久网站入口| 成人网页在线观看| 精品久久一区二区三区| 亚洲成av人片| 在线这里只有精品| 国产精品灌醉下药二区| 国产美女视频91| 日韩午夜av电影| 午夜精品成人在线视频| 色综合天天狠狠| 中文字幕一区二区在线观看| 国产精品一区免费视频| 欧美刺激午夜性久久久久久久| 亚洲制服丝袜av| 91视频免费看| 中文字幕亚洲一区二区va在线| 国产精品1区二区.| 久久综合狠狠综合久久综合88 | 亚洲激情网站免费观看| 处破女av一区二区| 国产视频一区在线观看| 激情文学综合网| 精品欧美一区二区久久 | 色www精品视频在线观看| 中文字幕一区二区在线播放| 国内精品嫩模私拍在线| 欧美xxx久久| 韩国一区二区视频| 久久综合色一综合色88| 国产美女一区二区| 久久网站热最新地址| 国产成人无遮挡在线视频| 久久久不卡网国产精品一区| 国产精品99久久久久久宅男| 久久网站热最新地址| 国产精品资源在线看| 中文字幕第一区| 91免费国产视频网站| 一区二区三区精品视频| 欧美色图在线观看| 日韩激情在线观看| 精品国产91乱码一区二区三区 | 色诱亚洲精品久久久久久| 一区二区三区欧美在线观看| 欧美三级资源在线| 免费人成黄页网站在线一区二区 | 中文一区二区在线观看| 97久久精品人人澡人人爽| 亚洲自拍偷拍欧美| 欧美一级在线观看| 国产精品亚洲一区二区三区妖精 | 日韩欧美一级片| 国产一区二区福利| 亚洲欧洲av一区二区三区久久| 91丨国产丨九色丨pron| 五月婷婷欧美视频| 精品欧美一区二区久久| 99re成人在线| 男男视频亚洲欧美| 国产精品伦理一区二区| 欧美人牲a欧美精品| 国产精品资源网| 亚洲一区二区精品视频| 久久亚洲一级片| 欧洲精品一区二区| 国产乱子轮精品视频| 亚洲亚洲精品在线观看| 久久蜜桃一区二区| 欧美美女黄视频| 成人中文字幕合集| 青青草视频一区| 亚洲色图视频网| 久久亚洲精品国产精品紫薇| 91精品福利视频| 国产精品一区二区久久不卡| 亚洲一区二区在线观看视频| 久久精品一区二区| 宅男在线国产精品| 91在线无精精品入口| 韩国一区二区三区| 亚洲超丰满肉感bbw| 国产精品嫩草影院com| 欧美一区二区三区视频免费播放 | 色综合久久88色综合天天6| 精品系列免费在线观看| 一区二区三区在线播放| 国产三级一区二区三区| 日韩欧美在线综合网| 欧美性受xxxx黑人xyx性爽| 国产精品资源在线| 日韩成人一级大片| 亚洲最新在线观看| 亚洲欧美自拍偷拍| 国产欧美日韩视频一区二区| 日韩免费看的电影| 69久久99精品久久久久婷婷| 色婷婷亚洲一区二区三区| 成人在线视频一区| 国产一区二区三区在线看麻豆| 天天影视色香欲综合网老头| 一区二区三区丝袜| 中文字幕一区二区三区在线不卡| 久久日韩粉嫩一区二区三区| 欧美一级夜夜爽| 91精品国产综合久久久蜜臀图片 | 欧美丰满美乳xxx高潮www| 日本丶国产丶欧美色综合| 99在线精品观看| kk眼镜猥琐国模调教系列一区二区 | 久久久久久久精| 久久久噜噜噜久久人人看 | 91亚洲精品久久久蜜桃网站 | 精品国产青草久久久久福利| 欧美一区二区三区在线视频| 91精品国产乱| 日韩欧美黄色影院| 欧美www视频| 精品国产百合女同互慰| 久久欧美中文字幕| 欧美激情一区二区三区蜜桃视频 | 成人激情电影免费在线观看| 国产成人亚洲精品狼色在线| 国产成人三级在线观看| 成人少妇影院yyyy| 91蜜桃婷婷狠狠久久综合9色| 91网址在线看| 欧美性猛交xxxx黑人交| 欧美人妇做爰xxxⅹ性高电影| 日韩一区二区中文字幕| 欧美tickling网站挠脚心| 久久久不卡网国产精品一区| 国产精品国产三级国产普通话99 | 国产毛片精品一区| 成人ar影院免费观看视频| 91污在线观看| 91精品国产综合久久香蕉的特点| 久久综合久久综合久久综合| 成人免费在线视频| 亚洲成精国产精品女| 精品亚洲成a人| 成人爽a毛片一区二区免费| 91国偷自产一区二区开放时间| 欧美日韩一区不卡| 久久久久一区二区三区四区| 亚洲精品欧美二区三区中文字幕| 天天色 色综合| 国产精品1024久久| 欧美性一区二区| 久久精品在线免费观看| 亚洲午夜免费视频|