近日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)聯(lián)合M-A-P開源社區(qū)發(fā)布SuperGPQA,一個(gè)覆蓋285個(gè)研究生級(jí)學(xué)科、包含26,529道專業(yè)問題的知識(shí)推理基準(zhǔn)測試。
該數(shù)據(jù)集不僅涵蓋數(shù)學(xué)、物理等主流學(xué)科,還首次將輕工業(yè)、農(nóng)業(yè)、服務(wù)科學(xué)等長尾學(xué)科納入評(píng)估體系,填補(bǔ)了現(xiàn)有基準(zhǔn)測試在長尾知識(shí)領(lǐng)域的空白。SuperGPQA已被用于揭示開源與閉源模型的性能差距,成為AI發(fā)展的重要工具。
傳統(tǒng)基準(zhǔn)如MMLU和GPQA學(xué)科覆蓋不足50個(gè),長尾學(xué)科占比不到5%,且因數(shù)據(jù)來源單一(如維基百科)和眾包標(biāo)注不可靠,難以衡量模型在復(fù)雜場景中的推理能力。SuperGPQA通過專家-LLM協(xié)同機(jī)制,從權(quán)威來源篩選問題,歷時(shí)半年構(gòu)建而成。其題目平均提供9.67個(gè)選項(xiàng),42.33%需數(shù)學(xué)計(jì)算或形式推理,兼具廣度與深度。實(shí)驗(yàn)顯示,最優(yōu)模型DeepSeek-R1準(zhǔn)確率僅61.82%,表明當(dāng)前大語言模型在多樣知識(shí)領(lǐng)域仍有提升空間。
SuperGPQA采用三階段流程提升質(zhì)量:專家篩選原始問題、規(guī)范化轉(zhuǎn)錄、多層質(zhì)量檢驗(yàn)(規(guī)則過濾、LLM檢測、專家復(fù)審)。評(píng)測結(jié)果表明,指令微調(diào)顯著提升性能,如DeepSeek-V3得分超基礎(chǔ)版,但開源模型在困難題目上仍落后閉源方案。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺(tái),同比增長33%,顯示出品類強(qiáng)勁的市場需求。