首頁 > 云計算頻道 > 大模型

首個千億生物醫藥ChatGPT來了！清華AIR聶再清：這個行業未來的“Killer APP”

2023年09月22日 17:19:00 蕭蕭來源：微信公眾號量子位

　　本文來自于微信公眾號量子位 (ID:QbitAI)，作者:蕭蕭。

　　制藥行業的“專家版ChatGPT”，終于來了!

　　就在這兩天，首個生物醫藥的千億參數大模型產品ChatDD發布，不僅制藥各階段知識“樣樣通”，還能和藥學專家進行對話，瞬間秒懂一些行業神秘“黑話”。

　　這和AlphaFold2直接加個Chat功能還不太一樣——

　　現階段大模型雖然能在藥物發現上做得不錯，但要么只涉及單個模態，要么不具備直接對話能力。

　　ChatDD則兼具多模態和對話雙重特點，順便還能給醫藥界學生“解個惑”。

　　做出這個產品背后的水木分子，是今年6月新成立的一家公司。清華大學智能產業研究院院長張亞勤院士指出:

　　ChatDD通過人機協作對話方式有效地將專家知識與大模型知識相聯結，開拓了繼傳統藥物研發TMDD、CADD、AIDD之后的第四代藥物研發新模式。

　　所以，它究竟在什么功能上做到“劃時代”?

　　我們和清華AIR教授、水木分子首席科學家聶再清聊了聊，詳細了解了ChatDD的來龍去脈。ChatDD是一個什么樣的產品?

　　先來看看ChatDD能做哪些事兒，具體又能用在哪里。

　　它的外觀和ChatGPT有點像，是一個網頁版，同樣能通過對話來實現各種功能。

　　對話能力上，不僅英文總結不錯，中文對話也來得，直接hold住“疾病畫像”這樣的專業黑(術)話(語):

　　如果有看不懂的分子，可以直接一鍵上傳相關文件，讓它來負責解讀這種分子的作用:

　　試試更復雜一點的任務，例如計算親和力問題，大模型竟然直接“推薦”了一個工具，并快速計算出結果:

　　此外，也不用擔心問答內容超出ChatDD訓練數據截止日期，畢竟它還學會了自己聯網、或是從數據庫中查找答案。

　　總結來看，ChatDD雖然用法上像ChatGPT，但在生物醫藥這塊是“專業的”。

　　無論是掌握的多模態(小分子+大分子+文本)醫藥專業知識量，還是對行業的理解程度、完成任務的能力，ChatDD都要比ChatGPT“更像個學醫藥的人”。

　　與同行AI不同的是，ChatDD的“業務范圍”，涵蓋了制藥的前、中、后期三個階段。

　　此前的醫藥行業AI，即使是大模型，往往也只能用于制藥的部分階段，例如前期的藥物發現，或是中期的臨床前研究。占研發成本大部頭的后期臨床試驗，幾乎無人問津。

　　而ChatDD不僅能參與藥物發現、立項、商業智能(BI，Business Inteligence)、臨床試驗各環節，還能幫助提升成功率。

　　聶再清介紹表示，ChatDD用于后期臨床試驗設計，也是大伙兒最期待的功能。

　　首先，藥物在臨床試驗階段的通過率，往往并不高。

　　尤其二期到三期臨床，通過率只有34%，三期到四期通過率也不高。但臨床試驗加上前中期的費用往往又極高，一旦不通過，就是幾億美元成本“打水漂”。

　　其次，藥物通過率不高的原因，(除非藥物本身不行)很大程度上是因為沒找到適合“對癥下藥”的患者。

　　藥廠通常會從臨床信息數據庫中，篩選適合用藥的病人。

　　假設這個藥物對數據庫中5%的患者有效，那么從這5%的患者中挑選進行臨床試驗，肯定比剩下95%的患者有效率高。

　　在綜合各方面信息做判斷這件事上，ChatDD往往比人類更適合篩選出“對癥下藥”的患者。

　　聶再清特意舉了一個例子，來表明ChatDD的能力:

　　注意這里未來會是“私有化部署的合作伙伴的單細胞RNA測序數據”，現在因為沒有，所以我們用了水木分子收集到的公開數據計算出來的。

　　這樣的ChatDD，背后功能究竟是怎么實現的? 醫學院博士后負責數據構建

　　ChatDD背后的底座，取名ChatDD-FM，參數量達到千億級別。

　　這次推出的ChatDD-FM-100B，是全球首個千億參數多模態生物醫藥對話大模型，其在C- Eval評測中達到全部醫學4項專業第一、也是唯一平均分超過90分的模型。

　　聯想到團隊前不久發的BioMedGPT-10B，其自然語言模態的大模型同樣基于LLaMA2架構，這二者是否有什么聯系?

　　聶再清表示，ChatDD-FM和BioMedGPT，在受眾和用途上都不太一樣，“有點像ChatGPT和GPT-3.5的區別，前者在對話和意圖對齊能力上有更大提升”。

　　BioMedGPT主要用于科研領域，更擅長英文生物醫藥科研任務，適合直接拿來作為生物醫藥領域的相關科研任務的基礎模型。

　　ChatDD-FM主要給國內醫藥行業“打輔助”，側重中文對話能力，融入了更多專家的對話模式和經驗。

　　技術上，ChatDD-FM相比BioMedGPT，主要增強了三大方面，模態、訓練數據和參數量級——

　　模態上，增加了蛋白質結構數據;訓練上，增加了用于中文、專家對話和調用工具能力的數據;參數量級上，從百億增加到千億。

　　讓ChatDD-FM提升“專業度”、說話像“行內人”的秘訣，依舊在于高質量數據上。

　　這些數據主要分為兩部分。

　　第一部分，是預訓練用的醫藥知識數據，主要目的是讓ChatDD-FM提升專業素養，幾個月內掌握行業知識。

　　由于之前業內缺少相關(大小分子等多個模態和自然語言對齊)數據集、尤其是中文數據，所以團隊又自己收集整理了一系列訓練數據集。

　　首先，和廠商合作翻譯專業英文期刊、整理中文期刊，收集帶有中文專業名詞的大量數據，降低大模型沒見過的專業詞匯比率;

　　然后，找來一批醫學院博士和博士后，設計一套系統對這些數據進行整理，直到它們可以被喂給大模型使用。

　　聶再清強調，這些博士不是在做數據標注，畢竟相比有監督學習，自監督學習更重要的是清洗、查找數據的工作:

　　這些期刊數據當然不是一個人一篇一篇地看，那絕對不行，也不是一個字一個字敲進去，也肯定不行。

　　畢竟大模型最主要的能力還是來源于自監督學習，所以更多是讓他們進行數據清洗和查找的工作。

　　當然，醫藥界期刊總是在更新，因此這部分的工作也會持續進行。

　　第二部分，是“專家數據集”，專門用于提升ChatDD-FM的對話能力。

　　ChatDD的用戶，會有不少醫藥領域的專業用戶，為了讓它能無縫讀懂業內人的“專言專語”，就必須要先了解專家們平時都會怎么說話。

　　團隊為此找了一些專家，“觀察”他們平時是怎么提問的，根據這些問題整理了一套數據集，專門喂給ChatDD。

　　這樣醫藥專業的用戶在使用時，不僅能像和同事聊天一樣直接提問，也能選擇“提示詞模板”直接換詞填充。

　　此外，為了進一步增強模型解決實際醫藥任務的能力，團隊也接入了不少實用工具和開源算法，解決用戶遇到的問題，主要分為查詢和計算兩大類，如知識庫查詢工具、或靶點親和力計算工具。

　　但，ChatDD-FM作為大模型，總歸繞不過幻覺這個問題。

　　此前發布BioMedGPT時，聶再清就曾表示過不用害怕科研、藥物發現等階段的“幻覺”。現在發布商業版ChatDD-FM，是否還這么想?

　　聶再清表示，現階段ChatDD-FM可以根據不同的需求，調整大模型出現幻覺的情況。

　　例如在做商業智能的時候，就盡可能降低大模型的幻覺，做到每一句話都有來源可追溯;

　　但在做藥物發現的時候，只要有實驗人員把關，都可以去適當提升幻覺，增加一部分模型想象力來“換換思路”，或許能試出有意思的結果。

　　后期，ChatDD-FM理論上甚至能做到“一鍵更改回答出現幻覺的比率”。

　　“對制藥行業有劃時代意義”

　　ChatDD背后的公司水木分子，目前已完成千萬級種子輪融資。

　　水木分子自定義為“大模型時代的CRO公司”，即利用大模型或AI技術，幫助別人更好更快地制藥。

　　公司的盈利方式目前有三種，包括ToB付費會員(按使用次數收費)、私有化部署和制藥分成。

　　已經有制藥廠商找來合作了——復星醫藥計劃對ChatDD進行私有化部署，用于輔助藥物立項等階段。

　　藥物立項，涉及大量資料查找和判斷，包括查找有無藥物相關(官能團、分子結構保護等)專利，還要根據大量文獻和實時市場信息等資料判斷是否值得立項。ChatDD能通過整合文獻和相關專利，生成一個完整的參考報告。

　　ChatDD的出現，聶再清認為對于行業而言有跨時代意義:

　　它真正將專家的經驗和直覺、以及大模型的“智力涌現”能力融會貫通了起來。

　　此前，制藥行業經歷了三個階段，分別是TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)。

　　但無論是人工試驗，還是計算或AI輔助藥物研發設計，都需要大量人力去“學會如何使用”模型，尚未出現一個能和科研人員直接對話的系統。

　　現在，ChatDD的出現真正改變了這一現狀。

　　它不僅能將制藥的知識經驗集成到大模型中，通過提示詞就能激發調用出來，還能通過學習專家對話方法掌握專業溝通能力，“相當于把人和機器最powerful的地方做了個融合。”

　　不過，要完全實現ChatDD的全部潛能，真正進入比較成熟的階段，聶再清認為至少還有10年的黃金時代。

　　一方面，對于生物醫藥行業來說，人類對于蛋白質、細胞、小分子之類的理解也還遠遠不夠，在這個學科方面仍然可以做出很多成績和進展;

　　另一方面，對AI行業來說，無論是數據還是算法，也都還沒發展到足夠成熟的階段。

　　數據上，目前生物醫藥領域內各模態和自然語言對齊的數據還很少。

　　(就像圖文一樣，雖然文字和圖像各自的數據很多，但圖文對齊如VQA的數據卻相對要少很多)

　　對此依舊需要不斷收集整理出PQA(蛋白質問答)、MQA(小分子問答)等模態的數據，來讓多模態大模型的效果變得更好。

　　模型上，大模型目前的效果還不是最好的，無論是單模態還是多模態，都值得繼續去探索。

　　所以，公司的下一步計劃，就是繼續優化模型、增加更多模態，并找到更多的場景落地需求。

　　對于ChatDD最終形態的設想，聶再清表示:

　　它會成為一個各模態(大小分子、蛋白質結構、DNA、單細胞等)和自然語言全部對齊的生物醫藥基礎大模型產品。

　　他也在發布會上預言，這個產品會成為生物醫藥行業的大模型“Killer APP”。

　　到那時候，才會真正打破醫藥界的“雙十定律”，高性價比的實現人機協作新藥研發。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

一加Ace 6T官宣：全球首發驍龍8 Gen5

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價5499元

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

首個千億生物醫藥ChatGPT來了！清華AIR聶再清：這個行業未來的“Killer APP”

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

首個千億生物醫藥ChatGPT來了！清華AIR聶再清：這個行業未來的“Killer APP”

擴展閱讀

最新新聞

熱門新聞