OpenAI 在去年推出的 GPT-4o 基礎(chǔ)上,再次對其高級語音模式進行了重大的更新,使得語音交流變得更加自然和貼近人類的對話方式。這一先進的功能依托于原生的多模態(tài)模型,能夠快速響應(yīng)音頻輸入,最快在232毫秒內(nèi)作出反應(yīng),平均響應(yīng)時間為320毫秒,幾乎與人類的對話速度不相上下。
在今年年初,OpenAI 已經(jīng)對這一語音模式進行了小幅更新,改善了打斷頻率和口音處理。而此次的重大升級,更是使語音回復(fù)的語調(diào)變得更加細膩、節(jié)奏更加自然,尤其是在停頓和強調(diào)的處理上,顯得更加生動。此外,更新后的系統(tǒng)能夠更加精準地表達各種情緒,包括同情和諷刺,使得機器與人類的交流更具人情味。
更令人興奮的是,本次更新還增加了翻譯功能。ChatGPT 用戶只需簡單指令,便可讓它在對話中進行實時翻譯,直到收到停止指令。這一功能的推出,無疑會減少對專門語音翻譯應(yīng)用的需求,進一步提升用戶體驗。目前,更新后的高級語音模式僅向付費用戶開放。
盡管這一系列的改進顯著提升了語音交互的質(zhì)量,但 OpenAI 也明確指出,當前更新仍存在一些已知的局限性。例如,在某些情況下,音頻質(zhì)量可能會略有下降,音調(diào)和語調(diào)可能出現(xiàn)意外變化,尤其是在某些語音選項中較為明顯。此外,偶爾也會出現(xiàn)與真實對話不符的情況,例如出現(xiàn)廣告、胡言亂語或背景音樂的意外聲音。OpenAI 表示,他們將繼續(xù)努力提升音頻的一致性,逐步解決這些問題。
這次升級不僅讓 AI 的語音交互體驗更加自然,也為人類與人工智能之間的溝通打下了更為堅實的基礎(chǔ)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。