北京時間9月13日午夜,OpenAI 發布了推理性能強大的 ο1系列模型。之后,各路研究者一直在嘗試挖掘 ο1卓越性能背后的技術并嘗試復現它。當然,OpenAI 也想了一些方法來抑制窺探,比如有多名用戶聲稱曾試圖誘導 ο1模型公布其思維過程,然后收到了 OpenAI 的封號威脅。
盡管如此,不過三四天時間,就已經有研究者宣稱已經成功復現/開發出了與 ο1性能差不多的推理技術,并且還不止一個!
Llamaberry:教會 AI 像聰明人一樣思考
Llamaberry 的提出者是 Martin Bowling。他開發的項目包括 RAGMiner.dev 和 Replit;其中前者可以幫助用戶毫不費力地將網站轉換成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 應用使用,而后者則是一個使用 AI 將想法變成代碼的項目。
Llamaberry 的核心思路是使用思維鏈(CoT)來實現推理。這個名字自然源自代表 o1模型的 Strawberry(草莓)。
HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry
什么是思維鏈?Bowling 在博客中打了個比方:「思維鏈推理就像是給 AI 一個筆記本來展示其工作過程。其中不僅僅是簡單地給出答案,而是會帶領我們經歷其思維過程。」
Llamaberry 能教會 AI 透徹地思考,就像是一位人類專家攻克難題時那樣。
具體來說,Llamaberry 是一個多輪思維鏈推理系統的實現,其基于運行在 Groq 上的 Llama3.170B 模型。
多輪推理是關鍵
多輪推理,顧名思義,就是讓模型在給出答案之前進行多步思考,而不是一步給出答案。打個比方,這就像是看一位大廚從備菜到完成擺盤一步步地完成一道精美菜肴,而不是直接微波加熱預制菜。
舉個示例:
第1輪:AI 先嘗試解決當前問題。
第2輪:AI 回顧第一次嘗試并盡力改進或優化其思維過程。
第3輪:再進行一輪反思和改進。
綜合結果:最后,將所有這些思考綜合到一起,得到一個連貫且合理的答案。
下面展示了這個多輪過程的示意圖:
可以看到,前一輪的輸出會成為后一輪的輸入,從而讓 AI 可在每個階段不斷完善其思維。最后,所有這些思考會凝練成一個合理的最終答案。就像看著一枚莓果逐漸成熟!
如何實現
下面將深入 Llamaberry 的實現細節。
1.設置舞臺
首先,我們需要為 AI 助手設置一些基本規則,代碼如下:
initial_system_prompt="""YouareanAIassistantcapableofdetailed,step-by-stepthinking.Whenpresentedwithaquestionorproblem,breakdownyourthoughtprocessintoclear,logicalsteps.Foreachstep,explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:
這就是提供給 AI 大廚的菜譜。它知道需要逐步分解其思考過程并解釋每個步驟,并且以 Markdown 格式將它們顯示出來。
2.思考過程
在每一輪推理中,都需要讓 AI 對問題進行思考。但在第一輪結束后,還需要求它思考之前已經思考過的東西。這就像問朋友,「嘿,還記得你之前說過什么嗎?讓我們再想一想。」
下面是每一輪的生成方式:
asyncdefgenerate_turn(query:str,previous_turns:list=None)->str:
該函數是多輪推理的核心。它決定我們是在第一輪還是在后續輪,并以此構建提示詞。對于后續輪,它會將之前所有推理輪都包含在上下文中,讓 AI 可以基于之前的思考進行構建。
3.綜合結果
經過三輪思考之后,再讓 AI 檢視其所有思考并得出一個合理的最終答案。這就像是讓專家討論問題,然后編寫最終報告。
asyncdefsynthesize_turns(query:str,turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori,turninenumerate(turns)])messages=[{"role":"system","content":synthesis_prompt},{"role":"user","content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)
這個綜合步驟至關重要,是 AI 綜合所有思考內容凝練出最終答案的一步。
單輪推理 vs 多輪推理
Martin Bowling 在其博客中簡單比較了單輪和多輪推理。
這里他采用了一個簡單示例,即詢問 AI:「人工智能對就業市場有什么潛在影響?」
單輪推理:
AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket,including:
使用 Llamaberry 執行多輪推理:
第1輪:
AI:Let'sapproachthisstep-by-step:
第2輪:
AI:Let'srefineourthinking:
第3輪:
AI:Let'sdelvedeeper:
綜合答案:
AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning,wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:
可以看到,多輪方法能實現更加精細、全面的分析。這能從多個角度考慮問題,優化其思考,最后得到更加深思熟慮和全面詳細的答案。
Bowling 表示,這樣的多輪推理在思考深度、自我提升、透明度、靈活性等方面都有巨大優勢,同時其還采用了 Markdown 格式,使其結果更容易閱讀和用于后續流程。
因此,這種技術可讓 AI 進入更多實際應用場景,比如醫療診斷、法律分析、科學研究、商業策略、教育。當然,在使用 Llamaberry 等多輪推理系統時,也需要注意它們的局限和潛在的道德倫理問題,比如偏見、計算成本、過度依賴和隱私問題。
如何使用 Llamaberry?
Llamaberry 也很容易使用,點擊幾下就能擁有你自己的多輪推理系統。步驟如下:
前往 Replit,點擊該鏈接獲取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1
創建模板分支:點擊 Fork 按鈕創建你自己的 Llamaberry 項目副本。
獲取你的 Groq API Key:注冊 Groq 賬戶,獲取 API Key。
設置環境:在你的分支 Replit 項目中,找到「Secrets」選項卡。添加一個新密鑰,密鑰為 GROQ_API_KEY,值是你的 Groq API 密鑰。
運行項目:單擊 Replit 界面頂部的 Run 按鈕。這將啟動 Llamaberry 應用。
開始實驗:應用運行起來后,你將看到一個 Gradio 界面。你可以在其中輸入問題并查看 Llamaberry 多輪推理的實際效果!并且輸出是簡潔漂亮的 Markdown 格式!
了解了 Llamaberry,下面來看另一個號稱實現了類 o1推理鏈的項目:g1。
g1:實現類似 ο1的推理鏈
g1這個項目來自 Benjamin Klieger,他是 Groq 的一位研究者。也因此,g1同樣基于 Groq,并且其也使用了 Llama3.170b 模型。
不同于 Llamaberry 使用的多輪思維鏈推理,g1的策略是角色扮演、思維鏈提示 、格式化以及另一些提示技巧。并且,g1開源了。
開發者宣稱 g1有70% 的時間能成功數出 Strawberry 中有多少個 R,同時無需任何微調或少樣本技術。下面是其一次執行過程:
開發者 Klieger 表示,g1和 ο1一樣能讓 LLM 有能力「思考」和解決之前的領先模型難以應對的邏輯問題。但不同之處在于,g1會大方地展示所有推理 token。同時,他也強調了 g1和 ο1在技術上的差異,其中后者使用了大規模強化學習來執行思維鏈推理。而 g1則是通過發掘提示詞工程的潛力來幫助 LLM 解決簡單的邏輯問題,讓現有的開源模型也能受益于動態推理鏈和優化般的探索界面。
g1的工作方式
由 Llama3.170b 支持的 g1會創建一種動態的思維鏈。
在每個步驟中,LLM 可以選擇是繼續進行另一個推理步驟,還是提供最終答案。每個步驟都有標題,并且對用戶可見。
系統提示詞中還會包含給 LLM 的提示。其提示策略如下:
YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep,provideatitlethatdescribeswhatyou'redoinginthatstep,alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title','content',and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING,INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG,ANDIFYOUAREWRONGINYOURREASONING,WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING,ACTUALLYRE-EXAMINE,ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHO***ODERIVETHEANSWER.USEBESTPRACTICES.
對這些提示詞的詳細解釋請參閱原項目的 Prompt Breakdown 一節。這里就不贅述了,僅給出幾個示例,比如可以在提示詞中加入「include exploration of alternative answers」(探索其它答案)和「use at least3methods to derive the answer」(使用至少三種方法來得出答案)。
這樣一來,通過組合思維鏈以及嘗試多種方法、探索其它答案、質疑之前草擬的解答、考慮 LLM 的局限性等策略,就能顯著提升 LLM 的推理能力。
在數 Strawberry 中有多少個 R 這個經典問題上,無需任何訓練,g1就能幫助 Llama3.170b 達到約70% 的準確度(n=10, How many Rs are in strawberry?)。而如果不使用提示技術,Llama3.170b 的準確率為0%,ChatGPT-4o 的也只有30%。
下面展示了另一個示例:0.9和0.11哪個更大?
詳細的安裝過程和代碼請參閱原項目。
最后,順便一提,另有開發者發布了 g1的分支版 Mult1,該版本的一大改進是可使用多個 AI 提供商來創建類似 o1的推理鏈
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。