首頁 > 云計算頻道 > 大模型

清華首個AI醫院小鎮來了！AI醫生自進化擊敗人類專家，數天診完1萬名患者

2024年05月09日 17:23:54 來源：新智元公眾號

　　清華團隊竟把醫院搬進了AI世界!首個AI醫院小鎮——Agent Hospital，可以完全模擬醫患看病的全流程。更重要的是，AI醫生可以自主進化，僅用幾天的時間治療大約1萬名患者。

　　斯坦福AI小鎮曾火遍了全網，25個智能體生活交友，堪稱現實版的「西部世界」。

　　而現在，AI「醫院小鎮」也來了!

　　最近，來自清華團隊的研究人員開發了一個名為「Agent Hospital」的模擬醫院。

　　在這個虛擬世界中，所有的醫生、護士、患者都是由LLM驅動的智能體，可以自主交互。

　　它們模擬了整個診病看病的過程，包括分診、掛號、咨詢、檢查、診斷、治療、隨訪等環節。

　　而在這項研究中，作者的核心目標是，讓AI醫生學會在模擬環境中治療疾病，并且能夠實現自主進化。

　　由此，他們開發了一種MedAgent-Zero系統，能夠讓醫生智能體，不斷從成功和失敗的病例積累經驗。

　　值得一提的是，AI醫生可以在幾天內完成對1萬名患者的治療。

　　而人類醫生需要2年的時間，才能達到類似的水平。

　　另外，進化后的醫生智能體，在涵蓋主要呼吸道疾病的MedQA數據集子集上，實現高達93.06%的最新準確率。

　　不得不說，AI進化在虛擬世界中默默進化，真有淘汰人類之勢。

　　有網友表示，「AI模擬將探索人類根本沒有時間，或能力探索的道路」。

　　想象一下，數千家全自動化醫院，將會拯救數百萬人的生命。這很快就會到來。

　　首個AI醫院小鎮登場

　　其實，智能體，早已成為業界看好的一個領域。

　　不論是在虛擬世界中的模擬，還是能夠解決實際任務(比如Devin)的智能體，都將給我們世界帶來巨變。

　　然而，這些多智能體通常用于「社會模擬」，或者「解決問題」。

　　那么，是否有將這兩種能力結合起來的智能體?

　　也就是說，社會模擬過程能否，提升LLM智能體在特定任務的表現?

　　受此啟發，研究人員開發了一個幾乎涵蓋所有醫學領域的治療流程的模擬。

　　如同單機游戲《主題醫院》的世界

　　Agent Hospital中模擬的環境，主要有兩類主體:一是患者，一是醫療專業人員。

　　它們的角色信息，都是由GPT-3.5生成，可以無限擴展。

　　比如，下圖中，35歲患者Kenneth Morgan有急性鼻炎，而他的病史是高血壓，目前的癥狀是持續嘔吐，有些腹瀉、反復發燒、腹痛、頭痛，而且頸淋巴結腫大。

　　再來看32歲內科醫生Elise Martin，具備了出色的溝通能力，以及富有同理心的護理能力。

　　她主要的職責是，為患有各種急性病和慢性病的成年患者提供診斷、治療和預防保健服務。

　　ZhaoLei是一位擅長解讀醫學圖像的放射科醫生，還有前臺接待員Fatoumata Diawara。

　　下圖中展示的是，Agent Hospital內有各種問診室和檢查室，因此需要一系列醫療專業智能體工作。

　　研究人員設計了，14名醫生和4名護士。

　　醫生智能體被設計來診斷疾病并制定詳細的治療計劃，而護理智能體則專注于分診，支持日常治療干預。

　　AI患者如何看病?

　　與真實世界看病的流程一樣，當患者生病后，就會去醫院掛號就診。

　　在此期間，它們還會經歷一系列階段，包括檢查、分診、會診、診斷、治療。

　　患者在拿到治療方案后，LLM會幫助預測患者的健康狀況變化。一旦康復，它便會主動向醫院匯報進行隨訪。

　　如下是Kenneth Morgan前往醫院就診的示意圖。

　　首先是，分診護士Katherine Li對Morgan進行了初步的評估，并將他分診到皮膚科就診。

　　隨后，Morgan在醫院柜臺進行登記，被安排與皮膚科醫生Robert Thompson進行會診。

　　在完成規定的體檢之后，AI醫生為Morgan開出藥物治療，并敦促回家休息，同時還要監測病情的改善情況。

　　AI醫生自我超進化，無需手動標記數據

　　在模擬環境中，研究人員希望訓練一個熟練的醫生智能體，來處理諸如診斷、治療等醫療任務。

　　傳統的方法是，將巨量的醫學數據喂給LLM/智能體，經過預訓練、微調、RAG之后，以構建強大的醫學模型。

　　最新研究中，作者提出了一種新策略——在虛擬環境中模擬醫患互動，來訓練醫生智能體。

　　在這個過程中，研究人員沒有使用手動標記數據，因此最新系統被命名為MedAgent-Zero。

　　這一策略包含了兩個重要的模塊，即「病歷庫」和「經驗庫」。

　　診療成功的案例被整理，并存儲在病歷庫中，作為今后醫療干預的參考。

　　而對于治療失敗的情況，AI醫生有責任反思、分析診斷不正確的原因，總結出指導原則，作為后續治療過程中的警示。

　　簡言之，MedAgent-Zero可以讓生智能體通過與患者智能體互動。

　　通過積累成功案例的記錄，和從失敗案例中獲得經驗，進化成更優秀的「醫生」。

　　整個自我進化流程如下:

　　1)積累實例，總結經驗;

　　2)直接向示例庫添加正確的響應;

　　3)總結錯誤的經驗，并重新測試;

　　4)將成功經驗進一步抽象后，納入經驗庫;

　　5)在推理過程中利用兩個庫檢索最相似的內容進行推理。

　　難得的是，由于訓練成本低，效率高，醫生智能體可以輕松應對數十種情況。

　　比如，智能體可以在短短幾天內處理數萬個病例，而現實世界的醫生需要幾年的時間才能完成。

　　診斷呼吸疾病，準確率高達93.06%

　　接下來，研究人員進行了兩類實驗，來驗證MedAgent-Zero策略改進的醫生智能體，在醫院中的有效性。

　　一方面，在虛擬醫院內，作者們進行了從100-10000個智能體的交互實驗(人類醫生一周可能會治療約100名病人)，涵蓋了8種不同的呼吸疾病、十幾種醫療檢查，以及每種疾病的三種不同治療方案。

　　通過MedAgent-Zero策略訓練的醫生智能體，在處理模擬病人的過程中不斷自我進化，最終在檢查、診斷和治療任務中的準確率分別達到了88%、95.6%和77.6%。

　　隨著樣本的不斷擴增，MedAgent-Zero的訓練性能，在達到一定量時趨于平穩。

　　在檢查、診斷、治療三個任務方面上的性能，MedAgent-Zero也隨著樣本增加，不斷波動，但整體準確性呈現出上升趨勢。

　　診斷呼吸疾病，準確率高達93.06%

　　再看如下三張圖，分別展示了不同疾病的檢查精度、診斷精確度、以及治療精度，隨著樣本的增加，也在平穩攀升。

　　另一方面，研究者讓進化后的醫生智能體，參加了對MedQA數據集子集的評估。

　　令人驚訝的是，即使沒有任何手動標注的數據，醫生智能體在Agent Hospital中進化后，也實現了最先進的性能。

　　在經驗積累上，圖11、圖12和圖13分別顯示了，檢查、診斷和治療任務中，經過驗證經驗和錯誤答案的積累。

　　當訓練樣本增加時，經驗數和錯誤答案數都緩慢增加。

　　如圖所示，經驗曲線低于錯誤答案曲線，原因是智能體無法反映所有失敗的經驗。此外，診斷經驗比其他任務更容易積累。

　　一起來看個案例研究。

　　下表中說明了，經驗庫、病理庫和MedAgent-Zero，在患者診療中的三個任務上的性能。

　　在得知病人癥狀之后，AI醫生不僅需要使用病歷庫，同時還需要經驗庫，也就是相輔相成。

　　若是少了其中的一方，便會導致診斷準確性的下降。

　　如下，通過添加經驗和記錄，MedAgent-Zero針對所有3個任務都給出了正確的回答。

　　以上結果表明，模擬環境可以有效地幫助LLM智能體在處理特定任務時完成進化。

　　MedAgent-Zero在使用GPT-3.5時，比SOTA方法Medprompt高出2.78%，在使用GPT-4時比SOTA方法MedAgents高出1.39%。

　　這一結果驗證了新模型有助于，在沒有任何MedQA訓練樣本的情況下，僅使用模擬文檔和醫療文檔進行智能體進化，從而有效提高醫生智能體的醫療能力。

　　其次，基于GPT-4的MedAgent-Zero的最佳性能為93.06%，優于MedQA數據集中的人類專家(約87%)。

　　第三，基于GPT-4的醫生智能體比基于GPT-3.5的任何其他方法都表現得更出色，這表明GPT-4在醫療領域更強大。

　　另外，在對MedAgent-Zero進行的消融研究中，

　　同時利用「病歷庫」和「經驗庫」的MedAgent-Zero取得了最佳性能，表明這兩個模塊對診斷的幫助。

　　隨著病例的積累和經驗庫的擴大，醫生智能體準確率總體上越來越高。

　　無論是使用GPT-3.5還是 GPT-4，使用8000個病例積累的經驗庫，其性能都高于使用2000/4000/6000個病例的性能。

　　不過，經驗庫越大并不總是越好，因為研究者還發現在2，000-4，000個案例之間有明顯的下降。

　　局限性

　　最后，研究人員還提到了這項研究的局限性。

　　- 只采用GPT-3.5作為Agent Hospital和評估的模擬器

　　- 由于智能體之間的交互及其演化涉及API調用，AI醫院的運作效率受到LLM生成的限制

　　- 每個患者的健康記錄和檢查結果，是在沒有領域知識的情況下，模擬真實的電子健康記錄生成的，但仍與現實世界的記錄仍存在一些差異。

　　在未來，研究者們對Agent Hospital的計劃將會包括:

　　第一，擴大規模覆蓋的疾病范圍，延伸到更多的醫療科室，旨在反映真實醫院提供的全面服務，以供進一步研究。

　　第二，在加強智能體社會模擬方面，比如納入醫療專業人員的全面晉升制度、隨時間改變疾病的分布、納入病人的歷史病歷等。

　　第三，優化基礎LLM的選擇和實施，旨在通過利用功能強大的開源模型，更高效地執行整個模擬過程。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

一加Ace 6T官宣：全球首發驍龍8 Gen5

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價5499元

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

清華首個AI醫院小鎮來了！AI醫生自進化擊敗人類專家，數天診完1萬名患者

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

清華首個AI醫院小鎮來了！AI醫生自進化擊敗人類專家，數天診完1萬名患者

擴展閱讀

最新新聞

熱門新聞