蘋果研究發現：AI 模型在遇到復雜難題時會“崩潰放棄”

2025年06月10日 15:33:36 來源：站長之家

　　蘋果近日發布的一項人工智能研究表明，AI 的“推理能力”或許遠沒有我們想象中的那么強。

　　這篇論文是在蘋果年度開發者大會(WWDC)前幾天發表的。研究指出，大型推理模型(LRM)——例如 OpenAI 的 o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 以及 Google Gemini Flash Thinking ——在面對日益復雜的問題時，會出現“徹底崩潰”的現象。這項研究出自去年曾揭示大型語言模型(LLM)推理缺陷的同一批研究人員。

　　這個發現無疑給熱衷于“通用人工智能”(AGI)的人潑了盆冷水，而對 AI 懷疑派來說則是振奮人心的好消息。研究顯示，雖然被大肆宣傳的 LRM 在中等難度謎題上的表現優于傳統 LLM，但在簡單題上的表現卻更差;而當面對高難度問題時，它們則會“完全崩潰”，甚至在解題過程中提早“放棄”。

　　蘋果研究人員用一句話總結了這些模型的真實表現：雖然它們在數學和編程任務中表現亮眼，但面對更復雜的挑戰時，只呈現出“思考的假象”。

　　蘋果在大模型開發方面起步較晚，設備中的 AI 功能也普遍被認為不夠驚艷。如今這項研究或許可以解釋，為什么蘋果不像谷歌和三星那樣急于在產品中全面導入 AI 功能。

　　蘋果是如何測試“推理能力”的?

　　研究人員使用了一系列經典邏輯謎題來測試這些被稱為“LRM”(大型推理模型)的 AI 系統，比如：

　　河內塔：將一組從大到小的圓盤從一個柱子移動到另一個柱子，規則是不能將較大的圓盤放在較小的上面。

　　跳棋問題：讓棋子按規則跳躍至空格中。

　　過河難題：例如“狐貍、雞和一袋糧食”不能單獨留在一起。

　　方塊堆疊問題：按指定順序堆疊方塊。

　　這些謎題通常用于測試人類的邏輯推理與問題解決能力。一旦掌握規律，難度雖提升，但邏輯是連續可循的。然而，研究發現：這些 LRM 模型在難度提升到一定程度后就會“失靈”。

　　研究寫道：“所有推理模型在面對問題復雜度增加時，都表現出類似的趨勢：準確率逐漸下降，最終在模型各自的臨界點完全崩潰(準確率為 0)。” 例如，在河內塔問題中，當添加到第五個圓盤時，Claude 3.7 Sonnet + Thinking 與 DeepSeek R1 就開始頻繁失敗。即使提供更多算力，也無法解決高復雜度問題。

　　更令人意外的是，研究人員還發現，隨著問題變難，模型一開始確實會投入更多“思考 token”(推理努力)，但接近臨界點時，反而會減少“思考”——即 token 使用量下降。換言之，問題越難，它們反而“更快放棄”。

　　即使研究人員直接在提示中提供了解題算法，模型只需“按步驟操作”，結果依然無改善。

　　但這是否意味著 AI 無法推理?

　　也不必過于悲觀。蘋果的研究并不意味著這些模型完全沒有推理能力，而是指出它們目前并不比人類聰明太多。AI 專家 Gary Marcus 在博客中指出：“(普通)人類其實也在類似的任務中表現不佳。例如，許多人在解決包含 8 個圓盤的河內塔問題時也會出錯。” 他還指出，研究并未將這些 AI 模型的表現與人類做直接對比。

　　本質上，大型語言模型在編程、寫作等任務中確實有價值，但也存在弱點。Marcus 總結說：“無論你如何定義 AGI，蘋果這項研究的根本結論是——LLM 不能代替良好定義的傳統算法。”

　　因此，我們應將這項研究視為一項重要的參考數據，與其他 LLM 研究結合來看。每次 AI 研究有新發現，社會輿論很容易陷入極端化：不是徹底看衰 AI，就是過度興奮地慶祝“突破”。但現實往往處在這兩個極端之間——既不驚天動地，也不一無是處。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...