近日,微軟研究院與清華大學、北京大學合作開發的獎勵推理模型(Reward Reasoning Models,RRMs)正式發布。
該模型通過顯式推理過程動態分配計算資源,顯著改善復雜任務的評估效果。RRMs基于Qwen2模型,采用Transformer-decoder架構,將獎勵建模轉化為文本補全任務,實現對復雜查詢的精細分析。
傳統獎勵模型在測試時統一分配計算資源,難以滿足多樣化需求。RRMs引入“思維鏈”推理機制,根據任務復雜性自適應調整計算資源投入。研究團隊利用RewardBench庫進行系統評估,結果顯示RRM-32B在推理類別中達到98.6%的準確率,遠超同類模型。
此外,RRMs支持多響應評估,并通過ELO評分和淘汰賽機制優化資源利用率,在后訓練反饋和最佳N推理中表現優異。
隨著模型規模擴大,RRMs展現出更強的推理能力和更高的準確性,為復雜任務提供了高效解決方案。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。