OpenAI 近日發布了一個專注于醫療大模型的測試評估集 HealthBench,并宣布開源。這一測試集由來自 60 個國家和地區的 262 名醫生共同打造,包含 5000 段核心測試對話,極大提升了評估的真實性與復雜性。
HealthBench 不僅覆蓋緊急情況、全球健康等多元背景,還通過 48562 個獨特的評分標準對模型的準確性、溝通能力等多維度進行開放式評估。
與傳統單一答題模式不同,HealthBench 引入多輪對話測試,顯著提升評估深度。數據顯示,從 GPT-3.5 Turbo 到 GPT-4o 再到 o3,模型性能逐步提高,尤其是小型模型 GPT-4.1nano,在超越 GPT-4o 的同時,成本降低 25 倍,展現了醫療領域大模型的巨大潛力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。