国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    OpenAI開源SWELancer,大模型沖擊100萬年薪

    2025年02月19日 11:18:00 來源:AIGC開放社區公眾號

      今天凌晨2點,OpenAI開源了一個全新評估大模型代碼能力的測試基準——SWE-Lancer。

      目前,測試模型代碼能力的基準主要有SWE-Bench和SWE-BenchVerified,但這兩個有一個很大的局限性,主要針對孤立任務,很難反映現實中軟件工程師的復雜情況。例如,開發人員需處理全技術棧的工作,要考慮代碼庫間的復雜交互和權衡。

      而SWE-Lancer的測試數據集包含1488個來自Upwork平臺上Expensify開源倉庫的真實開發任務,并且總價值高達100萬美元。也就是說,如果你的大模型能全部答對這些問題,就能像人類一樣獲得百萬年薪

      SWE-Lancer獨特測試方法

      SWE-Lancer的一個重要創新是其采用的端到端測試方法。與傳統的單元測試不同,端到端測試能夠模擬真實用戶的工作流程,驗證應用程序的完整行為。這種方法不僅能夠更全面地評估模型的解決方案,還能夠避免一些模型通過作弊來通過測試。

      例如,對于一個價值1000美元的開發任務,模型需要修復一個導致用戶頭像在“分享代碼”頁面與個人資料頁面不一致的漏洞。

      傳統的單元測試可能只能驗證頭像上傳和顯示的獨立功能,但端到端測試則會模擬用戶登錄、上傳頭像、切換賬戶以及查看不同頁面的完整流程。通過這種方式,測試不僅能夠驗證頭像是否正確顯示,還能夠確保整個交互過程的連貫性和正確性。

      端到端測試的另一個重要特點是其對真實場景的還原能力。在軟件工程中,許多問題并非孤立出現,而是與系統的其他部分相互作用。

      例如,一個看似簡單的漏洞可能涉及到多個組件的協同工作,或者與數據庫、網絡狀態等外部因素相關。

      端到端測試通過模擬真實用戶的行為,能夠捕捉到這些復雜的交互關系,從而更準確地評估模型的解決方案是否真正解決了問題。

      在評估的過程中,引入了一個重要模塊用戶工具,允許模型在本地運行應用程序,并模擬用戶的行為來驗證其解決方案

      例如,在處理Expensify應用中報銷流程的相關任務時,模型借助用戶工具模擬用戶進行費用錄入操作。會按照真實用戶的操作習慣,在本地運行的應用程序中依次輸入各項費用明細,如金額、日期、費用類型等信息,之后點擊提交按鈕,觀察應用程序是否能正確記錄費用數據,以及后續的審批流程是否能順利啟動。

      通過這樣的模擬操作,模型能夠判斷自己對報銷流程問題的解決方案是否有效,比如是否修復了費用錄入后數據丟失的漏洞,或者是否優化了審批流程中的卡頓現象等。

      SWE-Lancer數據集

      SWE-Lancer數據集一共包含1488個來自Upwork平臺上Expensify開源庫的真實軟件開發任務,一共分為獨立貢獻者和軟件工程管理任務兩大類。

      獨立開發任務一共有764個,價值414,775美元,主要模擬個體軟件工程師的職責,例如,實現功能、修復漏洞等。在這類任務中,模型會得到問題文本描述涵蓋重現步驟、期望行為、問題修復前的代碼庫檢查點以及修復目標。

      軟件管理任務,有724個,價值585,225美元。模型在此類任務中扮演軟件工程經理的角色,需要從多個解決任務的提案中挑選最佳方案。例如,在一個關于在iOS上實現圖像粘貼功能的任務中,模型要從不同提案里選擇最適宜的方案。

      首批SWE-Lancer測試結果

      OpenAI使用了GPT-4o、o1和Claude3.5Sonnet在SWE-Lancer進行了測試,結果顯示,大模型沖擊百萬年薪都失敗了。

      在獨立開發測試任務中,表現最好的模型Claude3.5Sonnet的通過率僅為26.2%,只能正確解決不到三分之一的開發任務。而在軟件工程管理任務中,Claude3.5Sonnet的表現稍好,通過率達到了44.9%。

      而GPT-4o在獨立開發測試中的通過率僅為8%,o1的通過率為20.3%;在軟件工程管理任務中,GPT-4o為37.0%,o1為46.3%。

      需要注意的是,模型在不同任務類型和難度級別上的表現存在顯著差異。在價值較低、相對簡單的任務中,模型的通過率相對較高;而在價值較高、難度較大的任務中,通過率則明顯下降。

      例如,在SWE-Lancer Diamond數據集中,價值超過1000美元的任務,模型的通過率普遍低于30%。這表明,盡管模型在處理一些基礎任務時能夠表現出一定的能力,但在面對復雜的、高價值的軟件工程任務時,他們仍比人類要差很多。

      看完這個基準測試,網友表示,現在我們竟然需要測試大型語言模型是否能成為百萬富翁,這簡直瘋狂。

      我很喜歡這個發展的方向。用全棧問題進行測試,將其與市場價值和開發工作的日常現實聯系起來。一直覺得以前的基準測試就不太準確。

      百分之百確定o3在這方面會勝過Grok3。

      將它與現實世界的任務和經濟價值聯系起來真是天才之舉,非常有趣。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    9191国产精品| 国产精品伦理在线| 国产成人夜色高潮福利影视| 日韩成人一级大片| 亚洲影视在线播放| 亚洲成a人片综合在线| 亚洲第一激情av| 日韩av电影免费观看高清完整版在线观看 | 国产欧美一区二区精品久导航| 日韩一级成人av| 日韩欧美卡一卡二| 久久尤物电影视频在线观看| 久久久久97国产精华液好用吗| 久久久另类综合| 亚洲欧洲日韩av| 亚洲最新视频在线观看| 免费欧美高清视频| 福利视频网站一区二区三区| 色欧美日韩亚洲| 日韩欧美国产综合在线一区二区三区| 欧美不卡视频一区| 国产精品人成在线观看免费| 亚洲精品国产高清久久伦理二区| 亚洲一区二区三区爽爽爽爽爽 | 久久久国产精品不卡| 国产精品天美传媒| 午夜欧美在线一二页| 国产在线一区二区综合免费视频| 国产不卡免费视频| 91黄色免费看| 欧美精品一区二区三区在线播放| 国产精品免费视频观看| 亚洲国产另类av| 粉嫩欧美一区二区三区高清影视| 色激情天天射综合网| 制服丝袜国产精品| 18欧美乱大交hd1984| 蜜桃视频一区二区三区在线观看| 不卡视频在线观看| 日韩欧美区一区二| 亚洲精品乱码久久久久久久久| 免费精品99久久国产综合精品| 成人开心网精品视频| 3d动漫精品啪啪一区二区竹菊| 国产精品免费网站在线观看| 日本va欧美va瓶| 色婷婷综合久久久| 国产欧美一区二区精品性色| 美女免费视频一区| 欧美日韩一区不卡| 亚洲欧美日韩一区二区| 国产美女一区二区| 欧美成人一区二区三区| 丝袜亚洲另类欧美| 欧美探花视频资源| 亚洲欧美偷拍卡通变态| 国产99久久久精品| 欧美videos中文字幕| 亚洲va欧美va天堂v国产综合| 波多野结衣一区二区三区 | 亚洲精品免费在线播放| 成人激情图片网| 久久精品一二三| 国产一区欧美二区| 亚洲精品在线三区| 日精品一区二区| 欧美日韩久久一区二区| 一区二区不卡在线视频 午夜欧美不卡在| 国产高清视频一区| 久久久久久9999| 高清免费成人av| 亚洲国产岛国毛片在线| 国产成人精品一区二区三区四区 | 国产视频亚洲色图| 久久66热re国产| 日韩三级.com| 精品一区二区三区不卡| 精品区一区二区| 精品一区二区三区香蕉蜜桃| 26uuu精品一区二区在线观看| 久久国产精品色| 久久久午夜精品| 成人激情动漫在线观看| 国产精品短视频| 色婷婷综合久久久中文一区二区| 亚洲视频一区二区在线观看| www.在线成人| 亚洲综合激情另类小说区| 欧美日韩国产综合草草| 日本欧美大码aⅴ在线播放| 日韩你懂的电影在线观看| 韩日av一区二区| 国产精品毛片无遮挡高清| 成人精品一区二区三区四区| 亚洲天堂中文字幕| 欧美日韩一卡二卡| 久久99久久99小草精品免视看| 精品少妇一区二区三区| 成人精品一区二区三区中文字幕| 亚洲人成精品久久久久久| 欧美在线影院一区二区| 捆绑调教一区二区三区| 国产亚洲精品中文字幕| 91影视在线播放| 日本不卡123| 国产精品电影一区二区| 欧美日韩中文另类| 国模套图日韩精品一区二区 | 亚洲国产另类av| 欧美电影免费观看完整版| 成人精品免费网站| 日韩高清国产一区在线| 亚洲国产精品成人综合色在线婷婷| 在线欧美一区二区| 国产很黄免费观看久久| 亚洲第一精品在线| 久久精品视频免费观看| 欧美色中文字幕| 成人午夜av影视| 人人精品人人爱| 国产精品国产三级国产三级人妇 | 精品国产免费视频| 97超碰欧美中文字幕| 美女免费视频一区| 亚洲精品中文字幕在线观看| 日韩视频在线你懂得| 91日韩精品一区| 极品尤物av久久免费看| 亚洲图片欧美一区| 中文字幕不卡三区| 精品免费一区二区三区| 欧美亚洲一区二区在线| 国产成人在线视频网址| 美女国产一区二区三区| 亚洲成国产人片在线观看| 国产精品国产成人国产三级| 精品成a人在线观看| 91精品国产综合久久久久| 91亚洲永久精品| 成人免费高清在线| 国产一区二区不卡老阿姨| 免费成人在线影院| 视频一区二区国产| 亚洲国产欧美一区二区三区丁香婷| 国产精品久久久久久久久图文区| 日韩免费一区二区| 欧美乱妇一区二区三区不卡视频| 99re8在线精品视频免费播放| 国精产品一区一区三区mba桃花 | 欧美一区二区精品在线| 色婷婷一区二区| 91在线视频免费91| www.成人网.com| av不卡一区二区三区| jizzjizzjizz欧美| 99精品久久只有精品| 99久久99久久久精品齐齐| 成人福利电影精品一区二区在线观看| 国产精品综合一区二区三区| 韩国成人精品a∨在线观看| 久久99精品国产麻豆婷婷洗澡| 免费看日韩a级影片| 久久不见久久见免费视频7| 精品夜夜嗨av一区二区三区| 激情都市一区二区| 国产不卡一区视频| 99久久国产综合精品麻豆| 色天使色偷偷av一区二区| 久久福利视频一区二区| 久久福利资源站| 国产成人午夜99999| a在线欧美一区| 欧美中文字幕久久| 91精品午夜视频| 精品国产伦一区二区三区观看体验| 日韩欧美第一区| 日本一区二区三区国色天香| 国产精品久久久久久久浪潮网站| 国产精品久久久久精k8 | 强制捆绑调教一区二区| 九九视频精品免费| 国产精品99精品久久免费| 不卡的av中国片| 欧美丝袜自拍制服另类| 日韩一区二区三区四区五区六区| 精品国精品自拍自在线| 中文字幕二三区不卡| 一区二区三区不卡在线观看 | 精品久久久久久综合日本欧美| 久久九九久精品国产免费直播| 国产精品免费久久久久| 亚洲成人黄色小说| 国产精一品亚洲二区在线视频| 99久久久无码国产精品| 欧美日韩亚洲不卡| 久久精品网站免费观看| 亚洲国产一区二区a毛片| 国产制服丝袜一区| 欧美亚洲丝袜传媒另类| 久久精品夜色噜噜亚洲aⅴ|