騰訊“混元-T1”推理模型在基準(zhǔn)測(cè)試中與 OpenAI 的 o1 能力相匹配

2025年03月25日 10:42:54 來(lái)源：AIbase基地

　　騰訊近日宣布推出其最新的大型語(yǔ)言模型——混元-T1，并表示該模型在推理能力上可與OpenAI的最佳推理系統(tǒng)相匹敵。

　　據(jù)騰訊介紹，混元-T1在開發(fā)過(guò)程中高度依賴強(qiáng)化學(xué)習(xí)，高達(dá)96.7%的訓(xùn)練后算力都用于提升模型的邏輯推理能力以及與人類偏好的一致性。

　　在多項(xiàng)基準(zhǔn)測(cè)試中，混元-T1展現(xiàn)出強(qiáng)大的性能。在測(cè)試14個(gè)學(xué)科知識(shí)的MMLU-PRO評(píng)估中，該模型取得了87.2分，僅略低于OpenAI的o1模型。在科學(xué)推理方面，渾元-T1在GPQA-diamond測(cè)試中獲得了69.3分。

　　尤其值得一提的是，騰訊強(qiáng)調(diào)混元-T1在數(shù)學(xué)方面的卓越表現(xiàn)。其在MATH-500基準(zhǔn)測(cè)試中獲得了高達(dá)96.2分的成績(jī)，僅次于Deepseek-R1。此外，該模型在代碼生成(LiveCodeBench:64.9分)和高難度推理(ArenaHard:91.9分)等方面也表現(xiàn)出色。騰訊還指出，混元-T1在多項(xiàng)中文任務(wù)上的準(zhǔn)確率超過(guò)90%。

　　在模型訓(xùn)練方面，騰訊采用了課程學(xué)習(xí)的方法，逐步增加任務(wù)難度。此外，該公司還創(chuàng)新性地開發(fā)了自我獎(jiǎng)勵(lì)系統(tǒng)，利用模型的早期版本評(píng)估新版本的輸出，從而驅(qū)動(dòng)模型性能的持續(xù)提升。

　　混元-T1采用了Transformer Mamba混合架構(gòu)，騰訊聲稱在相同條件下，該架構(gòu)處理長(zhǎng)文本的速度是傳統(tǒng)模型的兩倍。目前，Hunyuan-T1已通過(guò)騰訊云對(duì)外開放，并且在Hugging Face上提供了演示。

　　此次發(fā)布是繼百度和阿里巴巴相繼推出其聲稱達(dá)到o1水平的自研模型后，中國(guó)科技巨頭在AI領(lǐng)域展開競(jìng)爭(zhēng)的又一重要舉措。值得注意的是，阿里巴巴、百度和Deepseek都在積極推行開源戰(zhàn)略。人工智能投資者、前谷歌中國(guó)區(qū)總裁李開復(fù)此前曾公開表示，這些中國(guó)AI模型的發(fā)展對(duì)OpenAI構(gòu)成了潛在的生存威脅。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...

即時(shí)

全球頂級(jí)AI創(chuàng)作社區(qū)回歸！海藝AI國(guó)內(nèi)首發(fā)“全民娛樂(lè)化創(chuàng)作

海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng)，目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè)，涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景，基本覆蓋所有主流創(chuàng)作風(fēng)格。

一加Ace 6T官宣：全球首發(fā)驍龍8 Gen5

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價(jià)5499元

新聞

市場(chǎng)占比高達(dá)35.8%，阿里云引領(lǐng)中國(guó)AI云增長(zhǎng)

9月9日，國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng)，1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃，助力中小企

9月24日，華為坤靈召開“智能體驗(yàn)，一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

3C消費(fèi)

雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機(jī)，分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告，2025年第二季度》顯示，上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái)，同比增長(zhǎng)33%，顯示出品類強(qiáng)勁的市場(chǎng)需求。