近日,斯坦福大學發布了一項有關臨床醫療 AI 模型的全面評測,DeepSeek R1以66% 的勝率和0.75的宏觀平均分,在九個前沿大模型中脫穎而出,成為冠軍。這一評測的亮點在于,它不僅關注傳統醫療執照考試題,更深入到臨床醫生的日常工作場景,給出了更切實的評估。
評測團隊構建了一個名為 MedHELM 的綜合評估框架,包含35個基準測試,覆蓋22個醫療任務子類別。這個框架的設計經過了29名來自14個醫學專科的執業醫生驗證,確保了其合理性與實用性。最終,評測結果揭示了 DeepSeek R1的優越性能,緊隨其后的是 o3-mini 和 Claude3.7Sonnet。

具體而言,DeepSeek R1在各項基準測試中表現穩健,勝率標準差僅為0.10,表明其在不同測試中的穩定性。而 o3-mini 則在臨床決策支持類別的基準測試中表現突出,以64% 的勝率和0.77的最高宏觀平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分別以63% 和64% 的勝率緊隨其后。

值得一提的是,此次評測還創新性地采用了大語言模型評審團(LLM-jury)方法進行結果評估,結果顯示該方法與臨床醫生的評分高度一致,證明了其有效性。此外,研究團隊還進行了成本效益分析,發現推理模型的使用成本相對較高,而非推理模型成本較低,適合不同需求的用戶。
此次評測不僅為醫療 AI 的發展提供了寶貴的數據支持,也為未來的臨床實踐提供了更多的可能性和靈活性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。