Generative Large Language Models (LLMs) 在各種自然語言處理任務中取得了顯著成功,包括問答和對話系統。然而,大多數模型是在英文數據上訓練的,缺乏在提供中文答案方面的強大泛化能力。
為了解決這一問題,研究團隊推出MedChatZH,這是一個專為中醫問答優化的對話模型,基于 LLaMA 架構的 transformer 解碼器。通過在精心篩選的醫學指導數據集上進行微調,MedChatZH 在真實世界的醫學對話數據集上顯著優于幾個中文對話基線模型。我們的模型、代碼和數據集都在 GitHub 上公開可用,以鼓勵進一步在傳統中醫和 LLMs 領域的研究和發展。
目前,大型語言模型在各種下游自然語言處理任務中表現出色,其中包括機器翻譯和實體識別。在2023年,OpenAI 推出了 ChatGPT 系列生成式對話模型,在學術和工業領域引起了重大反響,顯著推動了自然語言技術領域的發展。然而,大多數語言模型,包括 ChatGPT,主要是在英文數據集上訓練和微調的。當應用于其他語言(如中文)時,由于詞匯不匹配、語料上下文和回答習慣的差異,它們往往遇到限制,導致響應質量和泛化能力下降。此外,在通用語言模型中缺乏特定領域理解的問題在專業領域中尤為突出,如傳統中醫會診。即使是像 ChatGPT 這樣的模型在這一任務中也會遇到困難,原因有:醫學領域中嚴格的道德和審查約束,導致拒絕提供醫療建議;中醫訓練數據的缺乏,導致對中醫相關查詢的理解不足。
為了解決 LLMs 在中文應用場景中的領域適應挑戰,研究人員提出了一組新的基礎模型,包括 Chinese-LLaMA 和 BLOOM,這些模型擴展并在中文詞匯上進行訓練,以及 GLM 等雙語模型。然而,將通用語言模型直接應用于專業領域仍未達到期望的性能水平。與豐富多樣的英文語料相比,中文語料往往被隔離在各種商業軟件中,不易公開獲取,或者在互聯網上受到質量不佳和缺乏同行審查的困擾。這導致中文預訓練語料和下游任務數據的稀缺,是訓練通用中文 LLMs 的主要障礙。將通用語言模型應用于中文特定垂直領域的挑戰更為突出,如中醫會診對話。即使是 ChatGPT 等模型在這一任務中也面臨困難,原因有:醫學領域中嚴格的道德和審查約束,通常導致拒絕提供醫療建議;中醫訓練數據的缺乏,導致對中醫相關查詢的理解不足。
為了解決中醫 QA 領域的研究空白,增強對話能力,本文介紹了一個專門為中醫患者對話優化的生成式 LLM,MedChatZH。首先在大量的中醫文獻上進行訓練,使其獲得了傳統中醫知識的全面可靠基礎。然后在一個高質量的數據集上進行微調,該數據集結合了醫學和一般對話,經過啟發式和基于模型的過濾等復雜數據處理步驟,以去除不相關或敏感內容,例如個人信息和口語回復。MedChatZH 的表現在真實世界的中醫問答基準數據集上得到了測試,評估指標涵蓋了傳統和基于獎勵的模型評分。結果表明,MedChatZH 在中醫對話 LLMs(如 BenTsao(原名:HuaTuo)和 HuatuoGPT)上表現優異。
論文的主要貢獻如下:
1. 提出了 MedChatZH,一個專門針對傳統中醫會診對話設計的生成式 AI 系統,表現良好。
2. 收集和整理了大量中醫文獻,構建了一個預訓練語料庫,并構建了一個結合一般對話和醫學對話的高質量數據集。通過啟發式和獎勵評估,過濾掉敏感信息和質量低下的口語回復。
3. 在真實世界的中醫問答基準數據集上評估了 MedChatZH 的性能,展示了其在多個評估指標上優于其他基線模型。
MedChatZH 在管理傳統中醫對話的獨特復雜性方面表現出色,這可以歸因于它在大量中醫文獻上的廣泛預訓練,以及在結合醫學和一般對話的數據集上進行微調。MedChatZH 的有效性有望為特定于不同語言和文化背景的 LLMs 開辟新途徑。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。