OpenAI o1式思維鏈，開源模型也可以有，成功案例來了

2024年09月18日 09:40:20 來源：機器之心公眾號

　　北京時間9月13日午夜，OpenAI 發布了推理性能強大的 ο1系列模型。之后，各路研究者一直在嘗試挖掘 ο1卓越性能背后的技術并嘗試復現它。當然，OpenAI 也想了一些方法來抑制窺探，比如有多名用戶聲稱曾試圖誘導 ο1模型公布其思維過程，然后收到了 OpenAI 的封號威脅。

　　盡管如此，不過三四天時間，就已經有研究者宣稱已經成功復現/開發出了與 ο1性能差不多的推理技術，并且還不止一個!

　　Llamaberry:教會 AI 像聰明人一樣思考

　　Llamaberry 的提出者是 Martin Bowling。他開發的項目包括 RAGMiner.dev 和 Replit;其中前者可以幫助用戶毫不費力地將網站轉換成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 應用使用，而后者則是一個使用 AI 將想法變成代碼的項目。

　　Llamaberry 的核心思路是使用思維鏈(CoT)來實現推理。這個名字自然源自代表 o1模型的 Strawberry(草莓)。

　　HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry

　　什么是思維鏈?Bowling 在博客中打了個比方:「思維鏈推理就像是給 AI 一個筆記本來展示其工作過程。其中不僅僅是簡單地給出答案，而是會帶領我們經歷其思維過程。」

　　Llamaberry 能教會 AI 透徹地思考，就像是一位人類專家攻克難題時那樣。

　　具體來說，Llamaberry 是一個多輪思維鏈推理系統的實現，其基于運行在 Groq 上的 Llama3.170B 模型。

　　多輪推理是關鍵

　　多輪推理，顧名思義，就是讓模型在給出答案之前進行多步思考，而不是一步給出答案。打個比方，這就像是看一位大廚從備菜到完成擺盤一步步地完成一道精美菜肴，而不是直接微波加熱預制菜。

　　舉個示例:

　　第1輪:AI 先嘗試解決當前問題。

　　第2輪:AI 回顧第一次嘗試并盡力改進或優化其思維過程。

　　第3輪:再進行一輪反思和改進。

　　綜合結果:最后，將所有這些思考綜合到一起，得到一個連貫且合理的答案。

　　下面展示了這個多輪過程的示意圖:

　　可以看到，前一輪的輸出會成為后一輪的輸入，從而讓 AI 可在每個階段不斷完善其思維。最后，所有這些思考會凝練成一個合理的最終答案。就像看著一枚莓果逐漸成熟!

　　如何實現

　　下面將深入 Llamaberry 的實現細節。

　　1.設置舞臺

　　首先，我們需要為 AI 助手設置一些基本規則，代碼如下:

　　initial_system_prompt="""YouareanAIassistantcapableofdetailed，step-by-stepthinking.Whenpresentedwithaquestionorproblem，breakdownyourthoughtprocessintoclear，logicalsteps.Foreachstep，explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:

　　這就是提供給 AI 大廚的菜譜。它知道需要逐步分解其思考過程并解釋每個步驟，并且以 Markdown 格式將它們顯示出來。

　　2.思考過程

　　在每一輪推理中，都需要讓 AI 對問題進行思考。但在第一輪結束后，還需要求它思考之前已經思考過的東西。這就像問朋友，「嘿，還記得你之前說過什么嗎?讓我們再想一想。」

　　下面是每一輪的生成方式:

　　asyncdefgenerate_turn(query:str，previous_turns:list=None)->str:

　　該函數是多輪推理的核心。它決定我們是在第一輪還是在后續輪，并以此構建提示詞。對于后續輪，它會將之前所有推理輪都包含在上下文中，讓 AI 可以基于之前的思考進行構建。

　　3.綜合結果

　　經過三輪思考之后，再讓 AI 檢視其所有思考并得出一個合理的最終答案。這就像是讓專家討論問題，然后編寫最終報告。

　　asyncdefsynthesize_turns(query:str，turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori，turninenumerate(turns)])messages=[{"role":"system"，"content":synthesis_prompt}，{"role":"user"，"content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)

　　這個綜合步驟至關重要，是 AI 綜合所有思考內容凝練出最終答案的一步。

　　單輪推理 vs 多輪推理

　　Martin Bowling 在其博客中簡單比較了單輪和多輪推理。

　　這里他采用了一個簡單示例，即詢問 AI:「人工智能對就業市場有什么潛在影響?」

　　單輪推理:

　　AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket，including:

　　使用 Llamaberry 執行多輪推理:

　　第1輪:

　　AI:Let'sapproachthisstep-by-step:

　　第2輪:

　　AI:Let'srefineourthinking:

　　第3輪:

　　AI:Let'sdelvedeeper:

　　綜合答案:

　　AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning，wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:

　　可以看到，多輪方法能實現更加精細、全面的分析。這能從多個角度考慮問題，優化其思考，最后得到更加深思熟慮和全面詳細的答案。

　　Bowling 表示，這樣的多輪推理在思考深度、自我提升、透明度、靈活性等方面都有巨大優勢，同時其還采用了 Markdown 格式，使其結果更容易閱讀和用于后續流程。

　　因此，這種技術可讓 AI 進入更多實際應用場景，比如醫療診斷、法律分析、科學研究、商業策略、教育。當然，在使用 Llamaberry 等多輪推理系統時，也需要注意它們的局限和潛在的道德倫理問題，比如偏見、計算成本、過度依賴和隱私問題。

　　如何使用 Llamaberry?

　　Llamaberry 也很容易使用，點擊幾下就能擁有你自己的多輪推理系統。步驟如下:

　　前往 Replit，點擊該鏈接獲取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1

　　創建模板分支:點擊 Fork 按鈕創建你自己的 Llamaberry 項目副本。

　　獲取你的 Groq API Key:注冊 Groq 賬戶，獲取 API Key。

　　設置環境:在你的分支 Replit 項目中，找到「Secrets」選項卡。添加一個新密鑰，密鑰為 GROQ_API_KEY，值是你的 Groq API 密鑰。

　　運行項目:單擊 Replit 界面頂部的 Run 按鈕。這將啟動 Llamaberry 應用。

　　開始實驗:應用運行起來后，你將看到一個 Gradio 界面。你可以在其中輸入問題并查看 Llamaberry 多輪推理的實際效果!并且輸出是簡潔漂亮的 Markdown 格式!

　　了解了 Llamaberry，下面來看另一個號稱實現了類 o1推理鏈的項目:g1。

　　g1:實現類似 ο1的推理鏈

　　g1這個項目來自 Benjamin Klieger，他是 Groq 的一位研究者。也因此，g1同樣基于 Groq，并且其也使用了 Llama3.170b 模型。

　　不同于 Llamaberry 使用的多輪思維鏈推理，g1的策略是角色扮演、思維鏈提示、格式化以及另一些提示技巧。并且，g1開源了。

　　開發者宣稱 g1有70% 的時間能成功數出 Strawberry 中有多少個 R，同時無需任何微調或少樣本技術。下面是其一次執行過程:

　　開發者 Klieger 表示，g1和 ο1一樣能讓 LLM 有能力「思考」和解決之前的領先模型難以應對的邏輯問題。但不同之處在于，g1會大方地展示所有推理 token。同時，他也強調了 g1和 ο1在技術上的差異，其中后者使用了大規模強化學習來執行思維鏈推理。而 g1則是通過發掘提示詞工程的潛力來幫助 LLM 解決簡單的邏輯問題，讓現有的開源模型也能受益于動態推理鏈和優化般的探索界面。

　　g1的工作方式

　　由 Llama3.170b 支持的 g1會創建一種動態的思維鏈。

　　在每個步驟中，LLM 可以選擇是繼續進行另一個推理步驟，還是提供最終答案。每個步驟都有標題，并且對用戶可見。

　　系統提示詞中還會包含給 LLM 的提示。其提示策略如下:

　　YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep，provideatitlethatdescribeswhatyou'redoinginthatstep，alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title'，'content'，and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING，INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG，ANDIFYOUAREWRONGINYOURREASONING，WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING，ACTUALLYRE-EXAMINE，ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHO***ODERIVETHEANSWER.USEBESTPRACTICES.

　　對這些提示詞的詳細解釋請參閱原項目的 Prompt Breakdown 一節。這里就不贅述了，僅給出幾個示例，比如可以在提示詞中加入「include exploration of alternative answers」(探索其它答案)和「use at least3methods to derive the answer」(使用至少三種方法來得出答案)。

　　這樣一來，通過組合思維鏈以及嘗試多種方法、探索其它答案、質疑之前草擬的解答、考慮 LLM 的局限性等策略，就能顯著提升 LLM 的推理能力。

　　在數 Strawberry 中有多少個 R 這個經典問題上，無需任何訓練，g1就能幫助 Llama3.170b 達到約70% 的準確度(n=10， How many Rs are in strawberry?)。而如果不使用提示技術，Llama3.170b 的準確率為0%，ChatGPT-4o 的也只有30%。

　　下面展示了另一個示例:0.9和0.11哪個更大?

　　詳細的安裝過程和代碼請參閱原項目。

　　最后，順便一提，另有開發者發布了 g1的分支版 Mult1，該版本的一大改進是可使用多個 AI 提供商來創建類似 o1的推理鏈

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...