国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    OpenAI o1全方位SOTA登頂lmsys推薦榜!數學能力碾壓Claude和谷歌模型,o1-mini并列第一

    2024年09月20日 11:45:13 來源:新智元公眾號

      o1模型發布1周,lmsys的6k+投票就將o1-preview送上了排行榜榜首。同時,為了滿足大家對模型「IOI金牌水平」的好奇心,OpenAI放出了o1測評時提交的所有代碼。

      萬眾矚目的最新模型OpenAI o1,終于迎來了lmsys競技場的測評結果。

      不出意外,o1-preview在各種領域絕對登頂,超過了最新版的GPT-4o,在數學、困難提示和編碼領域表現出色;

      而o1-mini雖然名字中自帶「mini」,但也和最新版的GPT-4o并列綜合排名第二,困難提示、編碼、數學等領域和o1-preview同樣登頂第一。

      果然,o1模型不愧是通用推理領域的新王。

      lmsys社區官方發推表示,這項測試結果收集了6k+社區投票,并將OpenAI這次取得的進展描述為「令人難以置信的里程碑」。

      單純看排行榜的排名可能不夠具有說服力,于是lmsys特意統計了總榜上前25名模型的1v1勝率。

      可以看到,o1-preview對所有模型的勝率都超過了50%,對比04-09版GPT-4-Turbo的勝率最高,達到了88%。

      o1-mini如果對戰o1-preview,勝率為46%,對09-03版GPT-4o的勝率為48%,可以說是大體平手、稍遜一籌的狀態。

      值得注意的是,雖然Grok-2-mini和Claude3.5Sonnet都排在比較靠后的位置,但o1-preview對這兩個模型的勝率并不高,分別是58%和57%,大大小于排名第四的Gemini1.5Pro的69%。

      如果看到細分領域的排行榜,尤其是數學/推理領域,效果則更加驚艷。

      o1-preview和o1-mini不僅是登頂數學排行榜,而且是體現出了絕對的領先優勢。

      排在第三、第四的Claude3.5Sonnet、Gemini1.5Pro和08-08版ChatGPT-4o的均分都在1275左右,不相上下;o1-preview和o1-mini則一騎絕塵,分數飆到1360附近,直接碾壓。

      o1推理團隊的領導者之一William Fedus看到這張圖也是相當開心,他表示這張圖「很好地用視覺表達了范式轉換」。

      看來最新的o1模型在STEM學科和通用推理方面的確又達到了新高度,用實際測評結果回應了「AI遇冷」、「OpenAI碰壁」的質疑聲。

      「那就繼續期待OpenAI接下來的發布吧!」

      但一些人感嘆「未來可期」的同時,另一些人想到了自己不多的智商和頭發。

      「模型搞得這么好了,測試就不適合我這種蠢人了。」

      同時,也有一些人表達了對lmsys排行榜結果的質疑。

      比如,眾所周知的o1模型推理時間長,因而回答的延時也長,和其他模型都有明顯差別;而且不同于各類基準測試的客觀標準,lmsys社區中完全基于用戶的主觀評分,難說這里面是否存在「安慰劑效應」。

      也有人不服o1在編碼排行榜上的第一,認為雖然o1-mini非常適合進行項目規劃,但在Cursor這類編碼助手中還是Claude模型的表現最佳。

      排行榜的結果當然不是全部,o1模型能否繼續贏得口碑,同時保持住智力水平不變蠢,還要看接下來的一段時間。

      IOI金牌代碼全公開

      說到o1模型的編碼能力,不知道你還是否記得,剛發布時OpenAI提到了這樣一個指標:如果放寬提交約束到每個問題允許1萬次提交,o1可以達到高于IOI金牌門檻的分數。

      在模擬進行的Codeforces編程競賽中,使用相同的規則進行評估,o1-preview可以打敗62%的人類選手,正式版o1則上升到超越89%的對手。

      專門微調過的o1-ioi模型,表現優于93%的競爭對手。

      此外,前段時間有用戶在實時的Codeforces比賽中使用了o1模型,結果是超越了99.8%的人類選手。

      由于o1在編程競賽領域的表現如此突出,引起了AI社區強烈的興趣和好奇,OpenAI于是選擇發布o1模型提交的代碼內容,包括6個問題的全部C++代碼以及注釋。

      發文的yummy是o1模型的核心貢獻者Alexander Wei

      對于o1的驚艷表現,Alexander Wei自己都很驚訝。

      他本人在9年前曾參加IOI競賽,但從未想到自己這么快就需要和AI競爭,模型展現出的推理過程的復雜程度令人印象深刻。

      博文表示,雖然o1模型距離人類的頂級表現還有很長的一段路要走,但我們期待有一天能實現這個目標。

      這個發展軌跡讓人想起了AlphaGo——從水平高超,到能和人類頂級高手不分勝負,再到5-0完全碾壓李世石。

      OpenAI想要達成的,估計就是究極進化的、能在編程上碾壓人類頂級高手的AlphaZero。

      此處公布代碼的6個問題具體如下:

      有網友指出,其中最令人印象深刻的應該是象形文字(hieroglyphs)問題,o1模型總共得到44分,在現場的所有選手中排名第四。這表明,模型或許可以破譯一些人類無法解決的子任務。

      前幾天,一位目前在NASA工作的天體物理學博士就嘗試讓o1復現自己論文中的代碼,結果一試嚇一跳——自己讀博時花了1年寫出的代碼,o1只用了一小時就寫完了。

      這還只是裸模型,如果加上代碼解釋器、網絡實時搜索等各種工具,效果想必更加驚艷。

      而且,Reddit網友還送來了溫馨提示:這只是o1預覽版哦,可以狠狠期待一下不到一個月就即將問世的正式版o1了。

      此外,這位網友還表示,o1基本沿用了GPT-4的架構;那你想,改換架構后的GPT-5(也就是傳說中的獵戶座)能達到什么高度。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    国产成人av电影在线播放| 欧美在线一二三| 亚洲黄色性网站| 国产精品视频一二三| 久久久久久黄色| 久久嫩草精品久久久久| 久久久另类综合| 久久精品视频在线看| 2020国产精品| 久久久久国产免费免费| 国产日产精品一区| 一色屋精品亚洲香蕉网站| 亚洲欧美日韩久久| 亚洲图片欧美视频| 男男视频亚洲欧美| 国产精品系列在线播放| 成人一区二区在线观看| 99国产精品国产精品久久| 欧美午夜免费电影| 日韩一卡二卡三卡国产欧美| 精品国产免费久久| 中文字幕亚洲在| 亚洲电影激情视频网站| 美女久久久精品| 懂色av一区二区三区免费观看| 色综合视频在线观看| 5月丁香婷婷综合| 久久先锋影音av鲁色资源网| 亚洲欧美综合色| 日本人妖一区二区| 成人一区二区视频| 欧美久久久久中文字幕| 久久久午夜电影| 亚洲一区二区三区小说| 极品销魂美女一区二区三区| 91蜜桃免费观看视频| 日韩小视频在线观看专区| 久久精品夜色噜噜亚洲aⅴ| 亚洲激情综合网| 国产精品综合久久| 欧美亚洲愉拍一区二区| 久久免费电影网| 亚洲一区二区中文在线| 国产成人综合网| 欧美一级二级三级蜜桃| 亚洲毛片av在线| 国产精品一区二区在线观看不卡| 欧美视频一区二区| 国产精品视频第一区| 免费欧美日韩国产三级电影| 99re在线精品| 久久久国际精品| 免费一级欧美片在线观看| 日本电影欧美片| 国产欧美精品一区| 看片的网站亚洲| 欧美猛男gaygay网站| 亚洲少妇30p| 国产69精品久久99不卡| 欧美电视剧在线观看完整版| 一区二区激情视频| 成人av在线资源网站| 久久久久久久久99精品| 日本成人中文字幕在线视频 | 精品一区二区三区免费播放| 一本色道久久综合亚洲91| 久久精品人人做人人爽人人| 免费高清在线一区| 欧美卡1卡2卡| 五月婷婷欧美视频| 欧美日韩一区二区不卡| 夜夜爽夜夜爽精品视频| 日本韩国精品在线| 亚洲免费毛片网站| 91亚洲精品久久久蜜桃网站 | 国产欧美日本一区视频| 麻豆精品一区二区av白丝在线| 欧美日精品一区视频| 亚洲影视在线播放| 欧美日韩视频在线第一区| 午夜视频一区二区三区| 91精品免费在线观看| 日本亚洲三级在线| 精品少妇一区二区三区日产乱码 | 成人av电影在线| 中文字幕免费观看一区| 成人免费观看男女羞羞视频| 国产精品久久久久久久久动漫| av一二三不卡影片| 亚洲精品你懂的| 欧美日本在线播放| 免费成人性网站| 久久欧美中文字幕| 91在线观看污| 五月天婷婷综合| 26uuu国产一区二区三区 | 日韩亚洲欧美在线观看| 久久精品av麻豆的观看方式| 久久女同性恋中文字幕| av不卡免费在线观看| 亚洲午夜免费福利视频| 欧美电影免费观看完整版 | 欧美一区二区三区免费观看视频| 麻豆精品在线看| 国产女人18水真多18精品一级做 | 欧美一区二区三区免费视频| 国产在线视视频有精品| 中文字幕视频一区| 欧美精三区欧美精三区| 国产在线看一区| 亚洲日本在线天堂| 日韩亚洲欧美综合| 波多野结衣中文一区| 肉丝袜脚交视频一区二区| 久久久不卡影院| 欧美日韩一区 二区 三区 久久精品| 美女性感视频久久| 自拍偷拍国产精品| 欧美成人三级电影在线| 91免费版在线| 国产在线播放一区二区三区| 亚洲综合在线第一页| 26uuu色噜噜精品一区| 91小视频免费观看| 国产麻豆视频精品| 香蕉加勒比综合久久| 国产精品视频第一区| 91精品国产麻豆| 色一情一乱一乱一91av| 国产麻豆视频一区| 日韩电影一二三区| 亚洲精品国产a| 欧美国产激情一区二区三区蜜月| 欧美精品自拍偷拍动漫精品| 99re热这里只有精品视频| 精品在线你懂的| 日本少妇一区二区| 亚洲综合av网| ...中文天堂在线一区| 2023国产精华国产精品| 欧美精品色一区二区三区| 91麻豆自制传媒国产之光| 国产精品18久久久久久久久久久久| 亚洲www啪成人一区二区麻豆| 国产精品久久久久久亚洲伦| 久久综合狠狠综合| 欧美大黄免费观看| 欧美一区二区三级| 欧美男人的天堂一二区| 欧美主播一区二区三区| 91在线国产观看| av中文字幕亚洲| jiyouzz国产精品久久| 国产99久久久国产精品潘金| 国产尤物一区二区在线| 久88久久88久久久| 激情综合网av| 国产综合一区二区| 国产综合久久久久影院| 精品一区免费av| 国产伦精品一区二区三区视频青涩| 紧缚捆绑精品一区二区| 国产主播一区二区| 国产成人综合视频| 成人丝袜18视频在线观看| 国产91高潮流白浆在线麻豆| 国产高清成人在线| 国产成人免费在线观看不卡| 国产成人av影院| 波多野结衣欧美| 91在线视频在线| 一本到三区不卡视频| 色综合久久99| 欧美日韩成人在线一区| 91精品国产综合久久小美女| 日韩欧美在线影院| www激情久久| 国产欧美综合色| 最新日韩在线视频| 亚洲一级二级在线| 日本大胆欧美人术艺术动态| 久草在线在线精品观看| 成人免费三级在线| 在线中文字幕不卡| 欧美一区二区三区喷汁尤物| 亚洲精品一区二区三区精华液| 久久久久久久久久久久久夜| 国产精品乱码久久久久久| 亚洲老妇xxxxxx| 日韩avvvv在线播放| 国产精品66部| 在线一区二区观看| 欧美一级高清片在线观看| 国产日产欧美精品一区二区三区| 亚洲青青青在线视频| 丝袜美腿亚洲一区二区图片| 精品一区二区三区日韩| 91碰在线视频| 欧美大片拔萝卜| 亚洲色图19p|