熱門資訊> 正文
2026-02-09 09:29
已經火了好幾年的醫療大模型,又在2026年開年集體火了一把。
1月初,OpenAI連續發佈ChatGPT Health和OpenAI for Healthcare,在滿足HIPAA合規要求的同時,能為個人用戶和醫療機構提供更穩定、更優質的患者護理服務。這也是OpenAI首次推出官方的醫療健康專用模塊。
OpenAI的動作也引發了一連串連鎖反應——短短几日內,其主要的競爭對手Anthropic和谷歌也迅速做出迴應:前者針鋒相對,發佈了Claude for Healthcare;后者則更新了開源醫療大模型,拿出了MedGemma 1.5(4B)。
面對全球大模型巨頭們的軍備競賽,國內醫療大模型並沒有被嚇到。電梯廣告隨處可見的螞蟻阿福自不必説;「All-in」醫療的百川智能更是技驚四座,拿出了醫療基準測試超越GPT-5.2的Baichuan-M3;京東健康更是一口氣連發大模型新品和解決方案。
醫療大模型時代,真的來了!
作為大模型時代的開創者,站在C位的OpenAI如今的每一個佈局都如同蝴蝶效應一般,牽一發而動全身。其在去年下半年提出的萬億美元AI基建計劃已在全球掀起滔天駭浪,直接導致全球半導體存儲價格在短短兩三個月內飆升6倍,預計將持續上漲到至少2027年!
本次OpenAI醫療系列產品的推出,自然也引發了全球高度關注。
首先發布的是ChatGPT Health,它在ChatGPT中嵌入了一個新的獨立模塊,基於最新的GPT-5模型,通過新標籤頁的形式解答用户有關醫療健康的諮詢。用户還可以選擇是否連接個人EHR或者Apple Health等數據來源,且該模塊存儲的對話記錄及數據等獨立於ChatGPT其他對話,注重數據隱私。
隨后發佈的OpenAI for Healthcare則主要針對醫療機構用户,包含了ChatGPT醫療保健版和OpenAI API兩個產品。前者需要企業級部署,更像是ChatGPT Health的企業版。主要用於醫療臨牀環境、研究和運營目的,比如自動草擬病歷、出院總結、轉診信等文檔,且支持HIPAA。后者則用於醫療生態系統。目前,已有數千家AI企業(如知名的Abridge和Ambience)通過配置該接口來支持符合HIPAA標準的應用。
OpenAI在大模型領域主要的競爭對手Anthropic旋即在JPM大會上高調發布了Claude for Healthcare,直接對標OpenAI for Healthcare。這也是Anthropic在去年十月推出Claude for Life Sciences之后又一醫療佈局,顯示出其對醫療領域的重視。
谷歌則在幾日后更新了開源醫療大模型作為迴應。更新后的可離線運行的MedGemma 1.5 4B提升了文本、病歷和二維圖像核心能力的準確性,使開發者能夠更有效地將MedGemma適配醫學影像。同時,谷歌還發布了開源自動語音識別模型MedASR,可以輕松將醫療語音轉換為文本。
在2026開年不到半月時間,全球頂尖大模型企業紛紛重注醫療,也顯示了這一領域的戰略價值和火熱程度。
不過,雖然國外醫療大模型進展迅速,但要落到國內醫療場景,恐怕也並不現實。
一個重要的原因在於國內大模型同樣進展迅速,有着十足的競爭力。就在1月13日,「All-in醫療」的百川智能發佈了全新的醫療大模型Baichuan-M3。在全球權威的醫療大模型基準評測HealthBench和HealthBench Hard中,它分別以65.1分和44.4分的成績奪冠;且幻覺率僅有3.5%,全球最低,實現對GPT-5.2的「三殺」。僅幾天后,百川智能又發佈了Baichuan-M3 Plus,將幻覺率降低至2.6%,刷新了自己剛剛創造的紀錄。
這也是百川智能首次在醫療領域實現了對GPT-5.2的全面超越。
不光是百川智能,其他國內大模型大廠也在全力押注醫療。最為典型的莫過於螞蟻阿福,近一個月鋪天蓋地的推廣使其月活躍用户數已達3000萬,用户單日提問量已超1000萬,僅一個月時間翻倍,已是國內用户規模最大的大模型健康管理應用之一。
此外,京東健康和螞蟻也先后上線專為醫生打造的循證醫學AI工具,加上百川智能新推出的Baichuan-M3 Plus,將「國內版OpenEvidence」之爭推向了一個新高潮。在這背后提供支撐的,都是國產大模型。
更為關鍵的是,去年DeepSeek通過架構高效率提升同時實現高性能和低成本,且其開源模式深刻影響了后續國內大模型發展,各大模型大廠和初創企業紛紛大幅增加開源投入,目前,國內模型在全球最大的AI開源社區Hugging Face上的下載量已超越美國。全球越來越多的用户開始使用並依賴國內開源大模型。
這都極大改變了對國內大模型的評價。據動脈網瞭解,在DeepSeek橫空出世以后,不少以往基於OpenAI GPT模型開發的國內醫療大模型應用很快切換爲了以DeepSeek為首的國產大模型。
其次,由於受到美國技術出口限制、數據安全隱私等種種原因的影響,國外大模型爲了避免惹禍上身,往往不對國內用户提供官方支持,甚至主動封禁來自國內的訪問。這並非長久之計,一旦出現平替,國內用户自然很快遷移。
再次,在本地化支持上,國內大模型顯然也要比海外大模型好得多。比如,對漢語的支持上,國內大模型訓練數據以漢語為主,對複雜的漢語詞匯和語境處理更為精準,使其文字輸出更為流暢自然,符合漢語環境。
同時,國內醫療大模型深度整合中國臨牀指南、醫保目錄、DRG/DIP控費規則,並針對中國特色場景進行優化,且在開發之初就對齊國內數據安全及臨牀監管要求。
最后,來自官方的支持也是國內大模型發展的底氣所在。我國已明確提出到2027年形成一批臨牀專病專科垂直大模型和智能體應用,到2030年基層診療智能輔助基本實現全覆蓋,二級以上醫院普遍開展醫學影像智能輔助診斷、臨牀診療智能輔助決策等應用。
這些因素都決定了在醫療大模型領域,國產可能是一個更為靠譜的選擇。
開年的熱鬧場景,註定今年將是醫療大模型一個重要的年頭。那麼,除了已經深度嵌入全行業生態,成為國產大模型標杆的DeepSeek外,國內還有哪些醫療大模型是今年最值得期待的?動脈網嘗試從性能、迭代、資源、數據及行業熱度等幾個維度來做出我們的解讀。
性能無疑是最為核心的考慮因素。目前,醫療大模型的性能基準測試以HealthBench(全球範圍)和MedBench(漢語)最為權威。
HealthBench是由OpenAI開發的專門基準測試,用於系統評估模型結合真實醫療流程中,在安全性、臨牀適用性和專業推理等多個維度上的表現。聯合了來自60個國家和地區的262位執業醫師共同構建,收錄了5000份真實醫療對話場景,每份對話均配有醫師定製的評分標準表用於評估模型回覆。
MedBench則由上海人工智能實驗室發佈,是國內首個面向垂直大模型、專用大模型和應用場景的醫療大模型評測與驗證體系,目前已升級至 MedBench 4.0。這一基準測試覆蓋大語言模型、多模態大模型及智能體三大類,圍繞醫學知識問答、語言理解、生成、複雜推理及安全倫理等維度構建共60個評測集70余萬專業評測題,並覆蓋10項細分任務。
值得一提的是,MedBench分為評測榜單和自測榜單。根據説明,兩者涉及的數據集不盡相同,且自測榜單通過模型答案上傳獲得結果而非API提交,不如評測榜單嚴謹。因此,本文主要參考評測榜單。
除了兩大基準測試體系,一些權威機構的榜單和賽事也能夠體現醫療大模型的性能水平,在此不再一一闡述。
大模型仍然處於高速發展階段,技術仍有很多優化提升空間。通過版本迭代實現性能的巨大提升在過往已經屢見不鮮。同時,模型迭代需要投入包括人力和算力在內不少資源——即便開源模型的調優訓練同樣如此。這也可以從側面説明企業的發展是否良性健康。因此,模型的迭代情況也是我們參考的重要因素。
總體而言,大模型是一種極其耗費資源的技術。龐大的算力需要海量昂貴的AI加速卡,算法的更新有賴於天才工程師的靈機一動,高質量的訓練數據獲取要麼採購要麼自建,上述歸根結底都離不開一個字——錢。背后的現金流是否充裕,對於醫療大模型而言顯然也是十分重要的一環。
數據對於醫療大模型來説至關重要,但高質量的醫療數據卻十分稀缺。一方面,處於數據隱私合規等方面的考慮,醫療及醫保機構對於數據態度十分謹慎;另一方面,即便不考慮這一因素,國內的醫療數據質量也難言樂觀。若能與知名醫療機構合作,理論上不僅可以獲得更好的數據,同時也可以使得產品在臨牀專家團隊的幫助打磨下更為完善。
除此以外,行業熱度也是我們考慮的因素。包括資本、政策、產業、學術和輿論層面的關注度與活躍程度。畢竟,在這個競爭激烈的領域,「酒香不怕巷子深」多少已經有些不合時宜了。
動脈網基於上述幾個維度對當前國產主流醫療大模型進行了匯總,並按照一定權重加權,並將打分結果按照一定的權重加總。經過綜合評判,我們認為下面這些大模型或將成為2026年國內最讓人期待的十大醫療大模型(按拼音首字母排序)。
作為唯一「All-in醫療」的大模型獨角獸,百川智能在這個開年狠狠火了一把。新發布的Baichuan-M3在HealthBench和HealthBench Hard踩着GPT-5.2登頂,緊隨其后對標OpenEvidence的Baichuan-M3 Plus又在短短數日內刷新M3創下的最低幻覺率紀錄。這也將為其與兒童醫學中心首都醫科大學附屬北京兒童醫院合作的首個兒科大模型提供更好的支撐。
百度靈醫大模型是國內首個「產業級」醫療大模型,在「重循證」思路下投入千億Token優質醫療健康訓練語料支持,覆蓋300萬+多模態影像數據、5億+條權威健康科普內容、70萬+項臨牀試驗介紹信息及2000萬+多語種醫學文獻資源等。靈醫大模型也是國內首批商業化落地的醫療大模型,通過多產品矩陣及密集更新已提供健康管家、醫生助手及企業服務等能力,支持多種接入方式,已覆蓋800+醫院、4000+基層醫療機構和大量藥企,在智慧診療、智慧科研、智慧服務等場景實現規模化應用。
方舟健客杏石醫療大模型具備多維度能力,並將知識、導診、預問診、醫生、電子病歷五大智能體聚合實現慢病管理全鏈條閉環覆蓋,其創新模式也被Nature關注並報道。它也是最早對標OpenEvidence的國內醫療大模型之一,整合中華醫學會170多種核心期刊超110萬篇文章,覆蓋臨牀所有重點學科。據統計,其已累計已為醫生提供近40萬次技術輔助,幫醫生節省了超6萬個小時的工作時間,患者的單次問診時間也縮短了70%以上。
京東健康京醫千詢醫療大模型在去年初成為國內醫療行業首個全面開源的垂類大模型。目前,京醫千詢醫療大模型已實現從通用基座模型到全科大模型,再到專科專病大模型的完整技術演進。依託這一技術底座,京東健康還打造了覆蓋多個醫療場景的大模型產品體系,包括「京醫」「知醫」「卓醫」等,已成為應用場景最豐富、與醫院共建最深、合作醫生最多、參與用户最廣泛的醫療垂類大模型之一。
螞蟻集團已經將醫療健康業務成為新戰略支柱板塊,螞蟻·多模態醫療大模型可以預期也將會成為諸多AI應用的基石。依託超萬億tokens專業醫療語料底座,支撐自主研發千億參數多模態模型,螞蟻·多模態醫療大模型也是國內首個通過國家信通院醫療健康行業大模型雙領域可信評估的大模型。在HealthBench、MedBench等國內外行業榜單中始終名列前茅。
藉助幾乎無所不在的微信生態圈和健康領域「朋友圈」,基於騰訊混元大模型底座的騰訊健康醫療大模型可能是目前在基層應用最為廣泛的醫療大模型之一。截至去年9月,由其驅動的AI導輔診服務在全國34個省、直轄市、自治區的近10000家各級醫療機構得到廣泛應用,並已實現「微信直連」。各類「開箱即用」的醫療AI解決方案服務超過1300家機構,涵蓋醫院、藥械企業、科研院校、醫療科技企業。
在最新的一期MedBench評測榜單中,微醫醫療大模型表現突出,拿下兩個冠軍和一個亞軍。在AI落地上,微醫也走在前列——在其向港交所提交的招股書中,其2025年上半年AI醫療服務收入已達總營收九成以上;且按2024年收入統計,微醫在中國數字健康服務市場及AI醫療健康解決方案市場中均位列第一。
自2023年以來,訊飛醫療旗下訊飛星火醫療大模型已經歷多次迭代,核心醫療能力不斷精進,多次在評測榜單中上榜。試點數據顯示,星火醫療大模型專科診斷合理率提升至96%,跨科室診斷合理率提升至91%,病歷書寫時間減少50%,已達等級醫院主任級醫師水平。基於該模型的醫生助理已覆蓋全國801個區縣,累計提供11億次輔助診斷;AI健康助手下載量則已突破2400萬次,完成超1.6億次AI健康諮詢。
醫渡科技大模型也是評測榜單中的常客,已授權處理覆蓋超過10000家醫院共13億患者人次的近70億份醫療記錄,沉澱了大量多維度可量化的知識圖譜。基於該大模型,醫渡科技還與多家醫院合作打造專科大模型及智能體。在第十一屆中國健康信息處理大會上,醫渡科技榮獲「醫學NLP代碼自動生成測評」冠軍及「最佳論文獎」,體現了醫療垂類大模型領域的技術實力。
未來醫生始終專注於醫療AI在嚴肅診療領域的應用落地,證實其與三甲主治醫師診療一致性達到96%。基於該大模型的最新研究成果——探索醫療AI臨牀適用性的評估標準CSEDB(臨牀安全-有效性雙軌基準)也於近日發表於npj Digital Medicine——未來醫生在其中獲得了出色的成績。
除了上述這些大模型外,另外一些國內醫療大模型依然相當有特點。尤其是之前的醫療AI企業。以數坤為例,其近年來的技術與產品重心已從單點算法或模型能力比拼,轉向多模態醫療大模型在真實醫療體系中的規模化落地與長期運行能力建設。
目前,數坤的多模態醫療大模型及相關智能體已在全國 5000 余家醫院中應用,覆蓋診療、管理與健康全流程,並在多地醫共體、省級平臺和真實世界場景中持續迭代,實現了「體系級落地能力」。其價值更依賴長期臨牀驗證與醫療系統級實踐。
此外,包括阿里達摩院、聯影、脈得智能和深睿等以往以AI影像為標籤的企業及機構近年來也頗為重視大模型的發展,並將大量技術與產品重心向多模態醫療大模型方向傾斜,為自己打上了「大模型」的標籤。
除了影像AI廠商,傳統醫療信息化及醫療大數據企業也紛紛進軍大模型領域,比如東軟集團、福鑫、浪潮健康等。
此外,在醫療與保險這一高度專業、強規則約束的領域,以行業數據、業務規則和場景理解為核心,持續迭代面向支付、理賠與患者服務的國產大模型也有亮點。比如,鎂信健康自主研發的mind42.ai被視為AI驅動醫療支付與服務協同的代表性平臺之一。
其面向真實醫療支付與服務場景提供系統級支持,將分散於醫藥、保險與服務環節中的多源數據進行統一建模與規則整合,支撐複雜支付路徑的自動匹配與執行,是鎂信健康「一碼直付」及多項核心業務能力的重要技術底座。截至 2025年12月,mind42.ai已累計服務覆蓋4.43億保單量,包含多種保險產品與用藥、就醫場景。
這些企業的加入,也使得目前醫療大模型與馬拉松起跑階段類似——熱鬧擁擠、你追我趕。在這樣一個馬拉松一般的賽道,暫時領跑可能並不代表最終能夠搶先撞線。誰能夠在未來拉開身位,讓我們拭目以待。
本文來自微信公眾號「動脈網」(ID:vcbeat),作者:陳鵬,36氪經授權發佈。