国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    代碼解釋器等于GPT-4.5!不訓練GPT-5,OpenAI依然向AGI狂飆

    2023年08月02日 11:09:26 來源:新智元

      新智元報道

      編輯:潤

      【新智元導讀】在一個硅谷極客播客中,AI技術創業者和研究者們詳細闡述了為什么代碼解釋器有如此強大的功能,以至于它本身就相當于GPT4.5。而且,通過代碼解釋器,OpenAI離AGI更近了!

      在上周,一個由硅谷創業極客和科研人員更新的播客Latent Space Podcast火了!

      兩個小時的播客結束時,有接近2萬人同時在收聽。

      后來組織者將他們的播客內容轉錄成一篇長文 ——《代碼解釋器就是GPT4.5》,在推特上獲得了40萬的閱讀量。

      文章非常全面地闡述了代碼解釋器的功能和它未來對OpenAI工作方向的影響。

      他們甚至認為,代碼解釋器是一條通往AGI的高速公路!

      不要在意版科技產品的版本號和名字

      在技術領域,版本號大多是為了營銷目的而存在,這已經是一個公開的秘密了。

      Windows 3.0 躍遷至95版本是為了讓公眾感知到微軟的重新設計(如今已成微軟的標志)。

      而且MacOS和Windows有意跳過了9版本,是為了吸引00后用戶。

      那么我們應該如何理解大模型版本之間的關系呢?

      理解版本號,對于科研人員來說,這可能是一個相對陌生的概念。

      因為他們可能會輕松地訓練400個不命名的語言模型來證實一個觀點,但隨著AI工程師在這些模型之上構建產品和業務的重要性日益增加,版本管理變得越來越重要了。

      在生成式人工智能的簡短歷史中,我們有了一些案例可供參考。

      GPT1→2→3 ,每一次更新都是明顯的進步,而Midjourney 4→5則預示著Balenciaga Pope的到來。

      但類似 Stable Diffusion 1→2 的發展卻引起了用戶的爭議。

      小版本號理應是代表著某種意義上的升級。

      它可能意味著從某一個基點開始,進行了更多的訓練,比如 SD v1.3→1.4→1.5…

      …這就引出了今天的話題,即GPT的.5版本號代表了很重要的改進。

      應該大家還記得,GPT3.5緊跟著ChatGPT發布,并且包括了text-davinci-003和code-davinci-002。

      這次更新完成了兩個目標:

      首先,讓用戶認識到GPT3.5相較于 GPT3(2020年的版本)優秀太多了。

      原因是:

      1. 增加了代碼

      2. 進行了指令 微調

      3. RLHF/PPO

      其次,表明這種新的聊天人機互動方式是通往AGI的未來之路。

      我們對代碼解釋器認知的核心問題是:

      1.讓人們理解從GPT-4更新到代碼解釋器的影響到底有多大

      2.討論種新的范式是未來通往通用人工智能的方向

      這兩個特點導致我得出了一個結論:代碼解釋器應該被視為事實上的 GPT 4.5。

      而且如果將來再加入API功能的話,我敢打賭,代碼解釋器結合起來就會被正式命名為 GPT 4.5。

      那現在我們再稍微回顧一下代碼解釋器到底能干什么。

      全面認識代碼解釋器

      代碼解釋器是「一個實驗性的ChatGPT模型」,可以將Python代碼寫入Jupyter Notebook并在Sandbox中執行,具有以下特點:

      1. 與其他用戶和互聯網隔離的防火墻

      2. 支持高達100MB的上傳/下載(包括.csv、.xls、.png、.jpeg、.mov、.mp3、.epub、.pdf、.zip等整個Git存儲庫的文件)

      3. 預裝了超過330個庫,如 pandas(數據分析)、matplotlib、seaborn、folium(圖表和地圖)、pytesseract(OCR)、Pillow(圖像處理)、Pymovie(ffmpeg)、Scikit-Learn 和 PyTorch、Tensorflow(機器學習)

      它本身是作為ChatGPT插件更新的一部分于3月23日官宣的,并由Andrew Mayne和Greg Brockman進行了專門的演示。

      Alpha測持續了3個月。

      最后,在7月6日至8日間,作為一項可選擇的測試版功能向所有約200萬的ChatGPT Plus用戶推出。

      由于這些功能可以在代碼中靈活且無限地組合,很難完全列舉出這個功能所有的潛力。

      但通過示例學習(例如使用p5.js創建游戲、繪制表情包、創建交互式儀表板、數據預處理(包括季節性)、編寫復雜的AST操作代碼、大規模人臉檢測,參見 Discord 上的 #code-interpreter-output 頻道)并瀏覽庫列表是很有幫助的。

      Ethan Mollick提供了一些樣本,他并不懂Python,但非常擅長從代碼解釋器中獲取結果

      Ethan還將他的經驗總結為一份適用于代碼解釋器的系統提示。

      代碼解釋器實際上引入了兩個新的東西 - 沙盒和模型:

      7月之前的大部分Alpha測試都是側重于Python沙盒以及用戶可以在沙盒里做什么,只是偶爾會用到自主編碼的能力。

      但在發布后,功能的重點變成了通過代碼解釋器所能提供的模型的質量上。

      據傳聞,它似乎比當今的GPT-4更好(在編寫代碼、自主進行多個步驟、決定何時不繼續并要求用戶在一組選項中進行選擇方面)。

      這個模型的自主性需要親眼看到才能相信。以下是它在沒有任何人類輸入的情況下進行編碼和調試的示例:

      這種模型的進步之所以令人驚嘆,是因為它將模型與模態性能夠完美地結合在一起,就像之前的 ChatGPT 一樣。

      當然它也有一些缺點和限制:

      1. 環境經常重置代碼執行狀態,丟失已上傳的文件,并且其從故障中恢復的能力有限。

      2. 它的OCR功能與GPT-4 Vision相去甚遠。

      3. 它會拒絕做它能做的事情,而你必須堅持讓它做。

      4. 它無法在代碼中調用GPT3/4,因為它無法訪問網絡,因此無法執行諸如數據增強之類的任務,因為它試圖編寫解決問題的代碼。

      但拋開這些不足,總體來說,所有人對代碼解釋器的評價都是非常高的:

      Karpathy:「代碼解釋器 Beta 功能非常強大。它是你的個人數據分析師:可以讀取上傳的文件、執行代碼、生成圖表、進行統計分析等等。我預計社區需要一些時間來充分發揮它的潛力。」

      Simon Willison:「我開始使用Code Interprete后,它完成了我接下來兩年的計劃的所有任務。」

      推理:大模型下一個最前沿的方向

      在我們與George Hotz的對話之后,引發了一場關于OpenAI是否「沒有創意」、GPT-4是否真的「只是8個220B專家模型」的討論。

      暫且不論像PanGu這樣的萬億參數級模型的Routed Language Models和Switch Transformers的工作是否是真正的進步,代碼解釋器表明,只要不將進步的定義局限于純粹的語言模型推理,仍然有提升的空間,并且OpenAI已經抓住了關鍵的這一點。

      2017年,Noam Brown開發了Libratus,這是一個在12萬次無限制德州撲克對決中擊敗了四名頂級職業選手的人工智能。

      Noam Brown在Lex的訪談中談到自己在這個項目中產生的最重要的一個想法:

      神經網絡通常需要大約100毫秒的時間才能給出一個回答...但我們發現,如果你做一點搜索,就能使預先計算的策略(pre-computed strategy)擴大1000倍。而只需做一點搜索。就能使我們之前的所有研究都成了垃圾。

      這個想法現在看起來是那么的顯而易見:

      在現實生活中,當面臨一個更困難的問題時,人們會花更長時間思考,而不是面對一個更容易的問題。但是GPT3對于「一個球是圓的嗎?」和「P = NP?」這樣的問題幾乎花費相同的時間來回答。那么,如果我們讓它花上一年的時間呢?

      我們已經看到Kojima著名的論文「讓我們逐步思考」,通過允許模型在上下文中外化其思考過程并增加推理時間,就大大改善了語言模型的性能。Beam和Tree of Thought類型的搜索能夠更有效地利用推理時間。

      AI的每一個重大飛躍都源于某種能力的大量擴展(scaling)。Transformer 解鎖了可并行預訓練計算的能力。掩碼語言建模(Masked Language Modeling)讓我們可以處理大量的無標簽數據。規模定律(Scaling Law)為我們提供了擴展模型規模的地圖。似乎很明顯,推理時間的計算/「實時的搜索」是下一個有希望的前沿防線,用Noam Brown的話來說「只需將時間話在上面就一定會有豐厚回報」。

      Noam后來在2019年利用這個想法解決了6人德州撲克問題,然后在2022年利用這一見解解決了Diplomacy游戲(感謝了AlphaGo和AlphaZero的搜索算法)。

      上個月,他仍在考慮這個問題:

      兩周后,他加入了OpenAI。

      代碼生成、沙盒和智能體云(Agent Cloud)

      我一直在強調 LLM 編碼能力的特殊地位。

      這是 AI 工程師崛起的重要推動因素。

      這不僅僅是一個「噢,很可愛,Copilot 對開發人員有好處,但不太適合其他人」的故事 - LLM 代碼是普遍有用的,即使對于不懂編程的人來說。

      我所知道的關于「Code Core」的最早實驗來自 Riley Goodside,他在去年在「你是GPT-3,你不能做數學」中展示了這一點。

      這個實驗第一次表明了,要彌補LLM的缺陷(如數學計算、與外部環境的交互、可解釋性、速度/成本)的最佳方式是:

      利用編寫好的代碼在LLM之外完成任務。

      Nvidia的Voyager代理提供了將這一思路推向其邏輯結論的路線圖:

      當然,Voyager也存在一個明顯的問題:現實世界比Minecraft更加隨機,文檔化程度更低,反饋周期更長。

      就像Minion AI,Multion和AutoGPT一樣,當前所有的智能體實例都可在實時瀏覽器/桌面上運行。

      這使得潛在的幻覺和錯誤就是災難性的,形成了就像「自動駕駛汽車中總是不得不把手放在方向盤上」一樣的情況。

      自從Ada Lovelace在Babbage Difference Engine存在之前就開始編寫代碼以來,開發人員就一直在用現實中的人群進行測試。

      但最終,要知道代碼是否可以運行并按預期執行,唯一的方法就是為其創建一個沙盒。(而代碼解釋器就能和用戶一起創建無數個這樣的沙盒)

      大部分的代碼生成/沙盒功能可以在本地完成。

      但隨著《本地主機的終結》(一篇討論未來本地開發環境將會被云端開發環境取代的文章)中描述的情況越來越近。

      越來越多的代理構建者和用戶意識到構建和運行這些LLM推理過程的代碼片段所需的云基礎設施的需求。

      我們可以合理地預未來代理云的興起,以滿足這一需求。

      這實際上是一種新型的無服務器基礎設施需求。

      它不僅是臨時的和可編程的,還將具備特殊的功能以提供必要的反饋給非人類操作者。

      毫不奇怪,有一系列的可供選擇的產品來適應這個新興的代理云行業:

      來自 Replit 的 Amjad 已經被公開討論了

      E2B 的Vasek擁有一個開源的Firecracker microVM實現

      Codesandbox的Ives也有一個實現

      Fly的Kurt在5月份推出了Fly Machines

      你會注意到他們都使用了Firecracker,這個亞馬遜在2018年開源的QEMU替代品微型虛擬機技術(對于一個通常不以開源軟件領導者而聞名的公司來說,這是一個不錯的勝利)。

      然而,一個對比性的方法可能來自于Deno(在JavaScript領域)和Modal(在Python領域),它們的自動配置運行時提供了更輕量級的代理開發者和基礎設施提供者之間的協議,但熟悉程度更低。

      當然,OpenAI構建了自己的代理云,為200萬用戶提供托管和擴展代碼解釋器。

      多年來,他們一直在使用這個技術,并且我們其他人才剛剛意識到它的重要性。

      通往 GPT-5 的道路:代碼增強推理

      將所有這些綜合起來,我們可以將代碼解釋器與先前的方法進行對比:

      就像上圖列的一樣,考慮到主要和次要版本升級的改進,考慮到代碼解釋器賦予了模型這么多的新能力,我認為代碼解釋器是「GPT 4.5」。

      在我們的播客中,我們還會注意到,GPT4的重度使用者堅信GPT4基本版的質量已經有所下降(雖然OpenAI的Logan 聲稱服務的模型沒有改變)。

      這些粉絲同時也報告稱,在沒有編寫代碼的情況下,代碼解釋器的輸出與原始的GPT4 在「削弱」之前的輸出一樣好。

      假設這是真實的(很難證明,沒有明確的代碼解釋器 API 來運行 lm-eval-harness),很可能是為了讓代碼解釋器能夠編寫代碼而進行的額外微調也改善了整體輸出質量(這是我們從研究和Replit的經驗,再考慮到GPT3.5本身的起源,即 code-davinci-002,所得到的結果)。

      這使得代碼解釋器的基本模型,即使沒有沙盒,從模型質量上來看也是「GPT 4.5」。

      OpenAI的領先優勢:

      Sundar Pichai在6月份宣布了 Google Bard 的「代碼執行」功能。

      聲稱Bard可以執行簡單的無依賴性的Python功能,比如數字相加和字符串反轉。

      有趣的是,在一個月后我重新運行Google宣傳時相同提示,發現完全用不了了!

      與此同時,OpenAI正在推出一個全新的LLM編碼范式。

      OpenAI的領先優勢令人難以置信!

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    99精品在线观看视频| 91看片淫黄大片一级在线观看| 久久综合九色欧美综合狠狠 | 538在线一区二区精品国产| 99久久er热在这里只有精品15| 国产盗摄一区二区三区| 精品一区二区三区在线观看 | 欧美午夜精品久久久| 91在线观看地址| 不卡一区在线观看| 97久久超碰国产精品| 91精彩视频在线| 欧美日韩国产小视频在线观看| 欧美日韩精品欧美日韩精品一| 欧美精品久久一区二区三区| 91精品国产91热久久久做人人| 欧美大白屁股肥臀xxxxxx| 欧美一区永久视频免费观看| 欧美电影免费观看高清完整版| 久久女同性恋中文字幕| 中文在线免费一区三区高中清不卡| 国产午夜精品美女毛片视频| 中文字幕在线视频一区| 亚洲影院在线观看| 美腿丝袜亚洲色图| 成人国产精品免费观看动漫| 欧美日韩中文国产| 26uuu精品一区二区| 亚洲欧美自拍偷拍| 美女免费视频一区二区| av成人免费在线观看| 欧美视频中文字幕| 久久综合国产精品| 一区二区三区四区乱视频| 久久9热精品视频| av电影天堂一区二区在线观看| 欧美日韩高清在线| 国产日韩欧美在线一区| 亚洲三级电影全部在线观看高清| 日韩二区在线观看| 大胆亚洲人体视频| 欧美日本在线视频| 国产精品美女久久久久久| 亚洲精品久久嫩草网站秘色| 久久精品国产在热久久| 91视频91自| 欧美大片日本大片免费观看| 亚洲欧美色一区| 韩国三级在线一区| 欧美人牲a欧美精品| 国产欧美中文在线| 日韩av电影免费观看高清完整版 | 国产一区二区三区最好精华液| av资源站一区| 欧美一级高清片在线观看| 国内精品国产成人国产三级粉色| eeuss国产一区二区三区| 日韩视频永久免费| 亚洲最新视频在线播放| 成人性生交大片免费看在线播放 | 国产一区二区剧情av在线| 欧美在线制服丝袜| 国产婷婷精品av在线| 久久99久国产精品黄毛片色诱| 色综合久久中文综合久久牛| 久久久精品中文字幕麻豆发布| 精品国产伦一区二区三区免费| 日韩欧美久久久| 一区二区三区四区不卡在线| 国产经典欧美精品| 精品国产一区二区三区av性色| 亚洲精品欧美二区三区中文字幕| 成人sese在线| 国产午夜亚洲精品理论片色戒| 免费人成在线不卡| 欧美高清性hdvideosex| 亚洲在线视频免费观看| 91久久线看在观草草青青 | 亚洲自拍欧美精品| 色又黄又爽网站www久久| 久久精品一区二区三区av| 精品在线你懂的| 精品国产乱码91久久久久久网站| 免费av成人在线| 精品日韩成人av| 麻豆成人在线观看| 欧美一区二区国产| 麻豆成人久久精品二区三区红| 欧美久久久久久久久中文字幕| 亚洲福利电影网| 欧美美女网站色| 日韩福利电影在线观看| 欧美一级生活片| 久久精品久久精品| 久久久高清一区二区三区| 风流少妇一区二区| 亚洲理论在线观看| 欧美精品粉嫩高潮一区二区| 麻豆传媒一区二区三区| 久久九九99视频| 91伊人久久大香线蕉| 一区二区激情视频| 日韩一区二区三区高清免费看看| 激情小说亚洲一区| 亚洲视频免费看| 欧美精品粉嫩高潮一区二区| 激情六月婷婷综合| 日韩理论在线观看| 91精品国产免费| 成人禁用看黄a在线| 亚洲一区二区三区四区的| 日韩一区二区在线免费观看| 国产成人免费视| 亚洲综合在线电影| 日韩亚洲欧美成人一区| 成人性生交大片免费| 亚洲18影院在线观看| 国产亚洲成年网址在线观看| 在线观看日韩国产| 国产一区二区调教| 一区二区三区欧美日韩| 久久综合九色综合久久久精品综合| 91在线看国产| 夜色激情一区二区| 国产日韩影视精品| 色婷婷狠狠综合| 免费黄网站欧美| 日韩美女视频一区二区| 日韩一区二区三区免费观看| 成人午夜在线免费| 天堂成人国产精品一区| 欧美激情一区二区三区| 欧美日韩专区在线| 丁香天五香天堂综合| 亚洲成人手机在线| 国产精品国产精品国产专区不蜜| 欧美一区二区三区四区高清| 99久久精品国产一区二区三区| 麻豆精品一区二区| 亚洲国产精品久久一线不卡| 国产精品三级久久久久三级| 欧美tk—视频vk| 欧美丰满少妇xxxbbb| 色婷婷一区二区| 国产精品亚洲一区二区三区在线 | 一本一道久久a久久精品综合蜜臀| 久久精品理论片| 一级女性全黄久久生活片免费| 欧美国产国产综合| 久久久精品tv| 久久综合网色—综合色88| 欧美色网一区二区| 99久久99精品久久久久久 | 欧美乱妇一区二区三区不卡视频| www.欧美日韩国产在线| 国产在线精品视频| 开心九九激情九九欧美日韩精美视频电影 | 国产欧美日本一区二区三区| 日韩一区二区三区四区| 欧美日韩国产系列| 欧美日本韩国一区二区三区视频| 欧美在线你懂的| 欧美调教femdomvk| 欧美猛男超大videosgay| 欧美在线视频全部完| 在线观看一区不卡| 欧美亚洲国产bt| 欧美日韩电影在线播放| 欧美精品久久99久久在免费线 | 欧美一区二区精品在线| 欧美高清你懂得| 欧美一区二区三区在| 91麻豆精品国产91久久久使用方法 | 国产精品久久久久久久久久免费看| 国产亚洲精品免费| 国产精品污污网站在线观看| 中文字幕一区二区5566日韩| 最新日韩av在线| 亚洲国产精品一区二区www在线| 偷窥国产亚洲免费视频 | 99精品视频在线观看免费| 成人午夜av在线| 一本在线高清不卡dvd| 欧美午夜在线观看| 91精品黄色片免费大全| 欧美mv日韩mv国产| 国产日韩精品一区| 亚洲乱码国产乱码精品精可以看| 亚洲精品成a人| 蜜乳av一区二区三区| 国产成人av电影在线观看| 99在线热播精品免费| 欧美日韩另类一区| 精品福利在线导航| 亚洲视频你懂的| 裸体歌舞表演一区二区| proumb性欧美在线观看| 欧美亚洲图片小说| 精品播放一区二区| 亚洲黄色尤物视频|