OpenAI真憋了個大的。
美國當地時間5月13日上午10點(北京時間5月14日凌晨1點),OpenAI春季發布會如約而至,沒有GPT-5,沒有搜索引擎,但推出了一個新的旗艦模型:GPT-4o。
“o”是Omni的縮寫,意為“全能”,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。
從直播演示來看,GPT-4o的多模態、實時交互能力,已經足夠驚艷到讓人直呼科幻電影《her》真的變成了現實。
值得劃重點的是,GPT-4o和ChatGPT Plus會員版所有的能力,將免費向所有用戶開放!
不過,GPT-4o的新語音模式在未來幾周內會優先對ChatGPT Plus會員開放。
此外,GPT-4o也向開發者開放了API。與GPT-4Turbo相比,GPT-4o價格減半,但速度卻快了2倍,速率限制高出5倍。OpenAI稱,接下來會向部分API合作伙伴提供新的音頻和視頻功能支持。
GPT-4o到底有多強?昨晚“頭號AI玩家”全程圍觀直播,現在讓我們來一起回顧下其中細節。
GPT-4o驚艷面世,
核心能力全盤點
01.零延遲實時語音交互,自然真實富有情感
首先是零延遲實時語音交互,在這個環節,GPT表現得像是富有情感的真人。
在直播演示過程中,演示者Mark對GPT-4o說:“我正在做demo,我有點緊張。”然后他開始故意喘息得非常急促,GPT-4o很快識別出了他的呼吸聲,告訴他:“哦,哦,哦,別緊張,慢下來,你不是個吸塵器。”并指導他調整呼吸。
整個過程中,GPT-4o的語氣都非常自然、真實、富有情感,你可以隨時打斷它,要求它調整語氣和音調。
另一位演示者讓GPT-4o講一個關于“機器人與愛”的睡前故事。剛講一句,Mark Chen就打斷了它,說它講故事的語氣不夠有情感。GPT-4o調整過后,Mark Chen又很快打斷它,要求它情緒再飽滿再drama一點,然后GPT-4o的情緒又上了一個臺階,甚至可以說是浮夸的程度。
然后,演示者要求它切換成機器人聲音,GPT-4o的聲音和語氣立馬變得冷漠和機械。
這還沒完,演示者又讓GPT-4o用唱歌的方式把故事講完,GPT-4o當場把故事改編成了一首歌,并直接唱了出來,節目效果拉滿。
相比之下,ChatGPT的語音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4),這無疑會破壞對話的沉浸感。
此外,由于模型需要先將語音轉錄為文本,GPT-3.5或GPT-4接收處理并輸出文本,再將文本轉換為語音,所以GPT-3.5或GPT-4無法直接獲知語氣、音調、背景噪音等信息,也無法輸出笑聲、歌聲或表達情感。
02.通過攝像頭視覺傳達內容,在線解方程式
除了語音交互外,還可以通過視覺+語音的形式,如實時視頻、上傳圖片等方式,與GPT-4o進行多模態交互。
發布會上,OpenAI展示了GPT-4o通過多模態能力幫助用戶解決數學題的完整過程。
視覺解析圖形報表也手到擒來。OpenAI官方博客中,用戶一邊和GPT-4o語音,一邊在平板上畫圖,根據語音信息,解幾何數學題。
03.更智能的保姆級編程助手
用GPT-4o來實時編程,也比以前的純文本形式或上傳圖片進行文字對話的方式,更有交互感。
官方演示中, OpenAI使用電腦桌面端GPT-4o來檢查代碼,它不僅可以解釋代碼的作用,還可以告訴用戶如果調整特定代碼會發生什么。
通過一步又一步的實時問答溝通,GPT-4o可以幫助用戶提高編程效率,整個過程相當絲滑。
超強的實時語音+視覺交互能力,運用在編程輔助上,以后還要啥程序員鼓勵師。
04.視頻通話,實時分析面部情緒
演示者還在X上實時收集了網友的反饋,其中有人提出挑戰:打開攝像頭,看GPT-4o能不能實時分析面部情緒。
演示者先是打開了后置攝像頭,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起來是個桌子。”
在切換為前置攝影頭后,演示者的臉出現在與GPT-4o進行交互的界面,一整個打視頻電話的即視感。
GPT-4o立刻說:“你看起來非常開心,有大大的笑容,你想分享一下讓你這么開心的原因嗎?”語氣中甚至能聽出一絲好奇和試探。
演示者回答道:“因為我在做實時演示,讓大家看看你有多出色。”
GPT-4o帶著笑聲說:“拜托,別害我臉紅了。”
看到這,“頭號AI玩家”腦海里不禁回響起Samantha與Theodore之間的戀人絮語。
《Her》真的變成現實了。
05.同聲傳譯,支持多國語言
目前,ChatGPT支持超過50種語言。據介紹,GPT-4o的語言能力在質量和速度上都得到了改進。
官方演示中,一個人說英語,另一個人說西班牙語,通過語音指示GPT-4o實時翻譯,兩人實現了流暢的溝通。GPT-4o基本上只在開頭停頓了1~2秒,在句子中沒有出現停頓、卡殼等現象。
不過,有點bug的是,由于GPT-4o是中間的溝通媒介,導致兩位對話者并沒有直接看對方,而是都看向了手機。未來或許會有新型設備出現,利用AI技術讓使用不同語言的人們能夠更自然地進行交流。
變革人機交互,
但還不是GPT-5
OpenAI首席技術官Mira Murati在直播中介紹,GPT-4o是標志性產品GPT-4模型的一個迭代版本:提供了GPT-4級別的智能,但速度更快,并改進了其在文本、語音和視覺方面的能力。
OpenAI首席執行官Sam Altman發帖稱該模型是“原生多模態”的,在文本、視覺和音頻上端到端地訓練了一個新模型,GPT-4o所有輸入和輸出都由同一個神經網絡處理。
根據官方博客介紹,在基準測試中,GPT-4o在文本、推理和編碼智能方面達到了GPT-4Turbo級別的性能,同時在多語言、音頻和視覺能力上設定了新的標準。
OpenAI計劃在未來幾周內逐步推出GPT-4o的各項能力。其中,文本和圖像能力將從發布會后當天開始在ChatGPT中推出,Plus用戶可以搶先體驗,并擁有相比免費用戶多高達5倍的消息限制。帶有GPT-4o新版本語音模式也將在未來幾周內在ChatGPT Plus中推出。
針對免費用戶,OpenAI也主打一個“雨露均沾”,在接下來的幾周內會面向所有用戶,推出GPT-4o及其相關功能:
1.體驗GPT-4級智能
2.從模型和網頁獲取響應(聯網了)
3.分析數據并創建圖表
4.支持上傳照片進行交互
5.上傳文件以幫助總結、撰寫或分析
6.發現和使用GPT和GPT商店
7.可自定義控制的ChatGPT“內存”(擁有更強的“記憶力”)
目前已經體驗到GPT-4o的玩家告訴我們:體驗太絲滑了!后續“頭號AI玩家”也將跟進更詳細的玩法評測。
當然,炸場的不只是OpenAI,在這個被稱為全球“AI月”的5月,肉眼可見地,我們還將迎來谷歌的I/O開發者大會、微軟Build年度開發者大會、英偉達一季報發布等AI領域重要事件。
此外,預計6月10日舉辦的蘋果WWDC大會或將推出全新AI應用商店,并可能升級Siri語音助手,引入新的生成式AI系統。
試猜想,如果蘋果真的順利與OpenAI達成合作,GPT-4o被引入到iPhone設備端,取代(或升級)Siri,似乎也是順理成章的事。
總的來說,相比圖形用戶界面,GPT-4o近乎實時的語音和視頻交互體驗,標志著人機交互迎來了新的變革,更自然、更直觀的交互體驗,已經非常接近我們在科幻片里看到的人工智能,斯派克·瓊斯導演的科幻電影《Her》也因此被頻頻提及。
獵豹移動董事長兼CEO傅盛甚至連夜錄制視頻夸OpenAI在“大家都在拼大模型的參數和性能時,OpenAI殺了個回馬槍,認真地做起了整合和應用”。
看完今天OpenAI的發布,很難想象谷歌明天得拿出多大的殺手锏,才能擺脫“AI屆汪峰”的命運。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。