2025年高考數(shù)學(xué)結(jié)束后,關(guān)于數(shù)學(xué)考試難度的話題迅速引爆了熱搜。

于此同時,一場人類考生與AI的數(shù)學(xué)較量也引發(fā)廣泛關(guān)注。DeepSeek R1 0528、訊飛星火 X1-0420、GPT o3 等國內(nèi)外主流深度推理大模型化身 "AI 考生",在高考數(shù)學(xué)卷上展開激烈角逐。其中,訊飛星火X1以141分的優(yōu)異成績脫穎而出,穩(wěn)居國內(nèi)大模型第一梯隊。
本次評測由IT之家發(fā)起,采用了多版本交叉驗證結(jié)合老師解題驗證的方式,總分設(shè)定為150分,并特別邀請了具有十年高中數(shù)學(xué)一線教研經(jīng)驗的專家輔助評分。參與評測的深度推理大模型共有七家,包括訊飛星火X1-0420、DeepSeek R1 0528、通義千問Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、騰訊混元Hunyuan T1 latest以及GPT o3。
在考試開始時,面對較為基礎(chǔ)的選擇題,各家大模型均有不錯的表現(xiàn)。

然而,隨著題目難度的不斷上升,模型間的差異開始顯現(xiàn)。比如在面對一道對數(shù)函數(shù)題時,DeepSeek都出現(xiàn)了錯誤。而到了解答題環(huán)節(jié),各家比分開始進一步拉開差距。
根據(jù)測評的最終結(jié)果,本次參與測評的大模型大多達到了人類優(yōu)秀考生的水準,相較去年有較大提升。其中,DeepSeek和訊飛星火X1表現(xiàn)突出,是唯二突破140分的大模型;豆包、通義千問、元寶等國產(chǎn)大模型分數(shù)則緊跟第三名GPT o3,接近國際頂尖的模型水平。
據(jù)悉,訊飛星火X1作為第一梯隊的深度推理大模型,其版本相較于其他模型較早,同時模型量級也相對較小(70B)。但是在測評中,訊飛星火X1卻展現(xiàn)出強大的推理能力。特別在解答題環(huán)節(jié),訊飛星火都能夠給出正確的答案和清晰明了的解題過程,并多次獲得滿分,其表現(xiàn)令人印象深刻。

值得一提的是,基于在教育領(lǐng)域深耕20多年的經(jīng)驗,訊飛星火X1在其他學(xué)科的測試中表現(xiàn)同樣亮眼。比如在微博#AI高考作文盲評挑戰(zhàn)#中,訊飛星火X1成功拔得頭籌;在英語作文方面,訊飛星火X1同樣在新京報的測評中奪得第一,展現(xiàn)出強大的語言能力。
隨著AI技術(shù)的不斷發(fā)展,深度推理大模型在教育領(lǐng)域的應(yīng)用前景越來越廣闊。訊飛星火作為其中的佼佼者,不僅為學(xué)生提供了有力的學(xué)習(xí)支持,更為教育行業(yè)的創(chuàng)新升級注入了新的活力。未來,我們有理由相信,訊飛星火將繼續(xù)引領(lǐng)教育創(chuàng)新,為培養(yǎng)更多優(yōu)秀人才貢獻力量。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。