蘋果近日發布的一項人工智能研究表明,AI 的“推理能力”或許遠沒有我們想象中的那么強。
這篇論文是在蘋果年度開發者大會(WWDC)前幾天發表的。研究指出,大型推理模型(LRM)——例如 OpenAI 的 o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 以及 Google Gemini Flash Thinking ——在面對日益復雜的問題時,會出現“徹底崩潰”的現象。這項研究出自去年曾揭示大型語言模型(LLM)推理缺陷的同一批研究人員。
這個發現無疑給熱衷于“通用人工智能”(AGI)的人潑了盆冷水,而對 AI 懷疑派來說則是振奮人心的好消息。研究顯示,雖然被大肆宣傳的 LRM 在中等難度謎題上的表現優于傳統 LLM,但在簡單題上的表現卻更差;而當面對高難度問題時,它們則會“完全崩潰”,甚至在解題過程中提早“放棄”。
蘋果研究人員用一句話總結了這些模型的真實表現:雖然它們在數學和編程任務中表現亮眼,但面對更復雜的挑戰時,只呈現出“思考的假象”。
蘋果在大模型開發方面起步較晚,設備中的 AI 功能也普遍被認為不夠驚艷。如今這項研究或許可以解釋,為什么蘋果不像谷歌和三星那樣急于在產品中全面導入 AI 功能。
蘋果是如何測試“推理能力”的?
研究人員使用了一系列經典邏輯謎題來測試這些被稱為“LRM”(大型推理模型)的 AI 系統,比如:
河內塔:將一組從大到小的圓盤從一個柱子移動到另一個柱子,規則是不能將較大的圓盤放在較小的上面。
跳棋問題:讓棋子按規則跳躍至空格中。
過河難題:例如“狐貍、雞和一袋糧食”不能單獨留在一起。
方塊堆疊問題:按指定順序堆疊方塊。
這些謎題通常用于測試人類的邏輯推理與問題解決能力。一旦掌握規律,難度雖提升,但邏輯是連續可循的。然而,研究發現:這些 LRM 模型在難度提升到一定程度后就會“失靈”。
研究寫道:“所有推理模型在面對問題復雜度增加時,都表現出類似的趨勢:準確率逐漸下降,最終在模型各自的臨界點完全崩潰(準確率為 0)。” 例如,在河內塔問題中,當添加到第五個圓盤時,Claude 3.7 Sonnet + Thinking 與 DeepSeek R1 就開始頻繁失敗。即使提供更多算力,也無法解決高復雜度問題。
更令人意外的是,研究人員還發現,隨著問題變難,模型一開始確實會投入更多“思考 token”(推理努力),但接近臨界點時,反而會減少“思考”——即 token 使用量下降。換言之,問題越難,它們反而“更快放棄”。
即使研究人員直接在提示中提供了解題算法,模型只需“按步驟操作”,結果依然無改善。
但這是否意味著 AI 無法推理?
也不必過于悲觀。蘋果的研究并不意味著這些模型完全沒有推理能力,而是指出它們目前并不比人類聰明太多。AI 專家 Gary Marcus 在博客中指出:“(普通)人類其實也在類似的任務中表現不佳。例如,許多人在解決包含 8 個圓盤的河內塔問題時也會出錯。” 他還指出,研究并未將這些 AI 模型的表現與人類做直接對比。
本質上,大型語言模型在編程、寫作等任務中確實有價值,但也存在弱點。Marcus 總結說:“無論你如何定義 AGI,蘋果這項研究的根本結論是——LLM 不能代替良好定義的傳統算法。”
因此,我們應將這項研究視為一項重要的參考數據,與其他 LLM 研究結合來看。每次 AI 研究有新發現,社會輿論很容易陷入極端化:不是徹底看衰 AI,就是過度興奮地慶祝“突破”。但現實往往處在這兩個極端之間——既不驚天動地,也不一無是處。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。