訊飛星火高考數(shù)學(xué)成績穩(wěn)居國內(nèi)大模型第一梯隊，深度推理大模型引領(lǐng)教育創(chuàng)新

2025年06月12日 14:08:41 來源：CITNews中文科技資訊

　　2025年高考數(shù)學(xué)結(jié)束后，關(guān)于數(shù)學(xué)考試難度的話題迅速引爆了熱搜。

　　于此同時，一場人類考生與AI的數(shù)學(xué)較量也引發(fā)廣泛關(guān)注。DeepSeek R1 0528、訊飛星火 X1-0420、GPT o3 等國內(nèi)外主流深度推理大模型化身 "AI 考生"，在高考數(shù)學(xué)卷上展開激烈角逐。其中，訊飛星火X1以141分的優(yōu)異成績脫穎而出，穩(wěn)居國內(nèi)大模型第一梯隊。

　　本次評測由IT之家發(fā)起，采用了多版本交叉驗證結(jié)合老師解題驗證的方式，總分設(shè)定為150分，并特別邀請了具有十年高中數(shù)學(xué)一線教研經(jīng)驗的專家輔助評分。參與評測的深度推理大模型共有七家，包括訊飛星火X1-0420、DeepSeek R1 0528、通義千問Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、騰訊混元Hunyuan T1 latest以及GPT o3。

　　在考試開始時，面對較為基礎(chǔ)的選擇題，各家大模型均有不錯的表現(xiàn)。

　　然而，隨著題目難度的不斷上升，模型間的差異開始顯現(xiàn)。比如在面對一道對數(shù)函數(shù)題時，DeepSeek都出現(xiàn)了錯誤。而到了解答題環(huán)節(jié)，各家比分開始進一步拉開差距。

　　根據(jù)測評的最終結(jié)果，本次參與測評的大模型大多達到了人類優(yōu)秀考生的水準，相較去年有較大提升。其中，DeepSeek和訊飛星火X1表現(xiàn)突出，是唯二突破140分的大模型;豆包、通義千問、元寶等國產(chǎn)大模型分數(shù)則緊跟第三名GPT o3，接近國際頂尖的模型水平。

　　據(jù)悉，訊飛星火X1作為第一梯隊的深度推理大模型，其版本相較于其他模型較早，同時模型量級也相對較小(70B)。但是在測評中，訊飛星火X1卻展現(xiàn)出強大的推理能力。特別在解答題環(huán)節(jié)，訊飛星火都能夠給出正確的答案和清晰明了的解題過程，并多次獲得滿分，其表現(xiàn)令人印象深刻。

　　值得一提的是，基于在教育領(lǐng)域深耕20多年的經(jīng)驗，訊飛星火X1在其他學(xué)科的測試中表現(xiàn)同樣亮眼。比如在微博#AI高考作文盲評挑戰(zhàn)#中，訊飛星火X1成功拔得頭籌;在英語作文方面，訊飛星火X1同樣在新京報的測評中奪得第一，展現(xiàn)出強大的語言能力。

　　隨著AI技術(shù)的不斷發(fā)展，深度推理大模型在教育領(lǐng)域的應(yīng)用前景越來越廣闊。訊飛星火作為其中的佼佼者，不僅為學(xué)生提供了有力的學(xué)習(xí)支持，更為教育行業(yè)的創(chuàng)新升級注入了新的活力。未來，我們有理由相信，訊飛星火將繼續(xù)引領(lǐng)教育創(chuàng)新，為培養(yǎng)更多優(yōu)秀人才貢獻力量。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

海報生成中...

[No.X058-2]