已经火了好几年的医疗大模型,又在2026年开年集体火了一把。
1月初,OpenAI连续发布ChatGPT Health和OpenAI for Healthcare,在满足HIPAA合规要求的同时,能为个人用户和医疗机构提供更稳定、更优质的患者护理服务。这也是OpenAI首次推出官方的医疗健康专用模块。
OpenAI的动作也引发了一连串连锁反应——短短几日内,其主要的竞争对手Anthropic和谷歌也迅速做出回应:前者针锋相对,发布了Claude for Healthcare;后者则更新了开源医疗大模型,拿出了MedGemma 1.5(4B)。
面对全球大模型巨头们的军备竞赛,国内医疗大模型并没有被吓到。电梯广告随处可见的蚂蚁阿福自不必说;“All-in”医疗的百川智能更是技惊四座,拿出了医疗基准测试超越GPT-5.2的Baichuan-M3;京东健康更是一口气连发大模型新品和解决方案。
医疗大模型时代,真的来了!
01
医疗大模型的月亮,国产可能更圆
作为大模型时代的开创者,站在C位的OpenAI如今的每一个布局都如同蝴蝶效应一般,牵一发而动全身。其在去年下半年提出的万亿美元AI基建计划已在全球掀起滔天骇浪,直接导致全球半导体存储价格在短短两三个月内飙升6倍,预计将持续上涨到至少2027年!
本次OpenAI医疗系列产品的推出,自然也引发了全球高度关注。
首先发布的是ChatGPT Health,它在ChatGPT中嵌入了一个新的独立模块,基于最新的GPT-5模型,通过新标签页的形式解答用户有关医疗健康的咨询。用户还可以选择是否连接个人EHR或者Apple Health等数据来源,且该模块存储的对话记录及数据等独立于ChatGPT其他对话,注重数据隐私。
随后发布的OpenAI for Healthcare则主要针对医疗机构用户,包含了ChatGPT医疗保健版和OpenAI API两个产品。前者需要企业级部署,更像是ChatGPT Health的企业版。主要用于医疗临床环境、研究和运营目的,比如自动草拟病历、出院总结、转诊信等文档,且支持HIPAA。后者则用于医疗生态系统。目前,已有数千家AI企业(如知名的Abridge和Ambience)通过配置该接口来支持符合HIPAA标准的应用。
OpenAI在大模型领域主要的竞争对手Anthropic旋即在JPM大会上高调发布了Claude for Healthcare,直接对标OpenAI for Healthcare。这也是Anthropic在去年十月推出Claude for Life Sciences之后又一医疗布局,显示出其对医疗领域的重视。
谷歌则在几日后更新了开源医疗大模型作为回应。更新后的可离线运行的MedGemma 1.5 4B提升了文本、病历和二维图像核心能力的准确性,使开发者能够更有效地将MedGemma适配医学影像。同时,谷歌还发布了开源自动语音识别模型MedASR,可以轻松将医疗语音转换为文本。
在2026开年不到半月时间,全球顶尖大模型企业纷纷重注医疗,也显示了这一领域的战略价值和火热程度。
不过,虽然国外医疗大模型进展迅速,但要落到国内医疗场景,恐怕也并不现实。
一个重要的原因在于国内大模型同样进展迅速,有着十足的竞争力。就在1月13日,“All-in医疗”的百川智能发布了全新的医疗大模型Baichuan-M3。在全球权威的医疗大模型基准评测HealthBench和HealthBench Hard中,它分别以65.1分和44.4分的成绩夺冠;且幻觉率仅有3.5%,全球最低,实现对GPT-5.2的“三杀”。仅几天后,百川智能又发布了Baichuan-M3 Plus,将幻觉率降低至2.6%,刷新了自己刚刚创造的纪录。
这也是百川智能首次在医疗领域实现了对GPT-5.2的全面超越。
不光是百川智能,其他国内大模型大厂也在全力押注医疗。最为典型的莫过于蚂蚁阿福,近一个月铺天盖地的推广使其月活跃用户数已达3000万,用户单日提问量已超1000万,仅一个月时间翻倍,已是国内用户规模最大的大模型健康管理应用之一。
此外,京东健康和蚂蚁也先后上线专为医生打造的循证医学AI工具,加上百川智能新推出的Baichuan-M3 Plus,将“国内版OpenEvidence”之争推向了一个新高潮。在这背后提供支撑的,都是国产大模型。
更为关键的是,去年DeepSeek通过架构高效率提升同时实现高性能和低成本,且其开源模式深刻影响了后续国内大模型发展,各大模型大厂和初创企业纷纷大幅增加开源投入,目前,国内模型在全球最大的AI开源社区Hugging Face上的下载量已超越美国。全球越来越多的用户开始使用并依赖国内开源大模型。
这都极大改变了对国内大模型的评价。据动脉网了解,在DeepSeek横空出世以后,不少以往基于OpenAI GPT模型开发的国内医疗大模型应用很快切换为了以DeepSeek为首的国产大模型。
其次,由于受到美国技术出口限制、数据安全隐私等种种原因的影响,国外大模型为了避免惹祸上身,往往不对国内用户提供官方支持,甚至主动封禁来自国内的访问。这并非长久之计,一旦出现平替,国内用户自然很快迁移。
再次,在本地化支持上,国内大模型显然也要比海外大模型好得多。比如,对汉语的支持上,国内大模型训练数据以汉语为主,对复杂的汉语词汇和语境处理更为精准,使其文字输出更为流畅自然,符合汉语环境。
同时,国内医疗大模型深度整合中国临床指南、医保目录、DRG/DIP控费规则,并针对中国特色场景进行优化,且在开发之初就对齐国内数据安全及临床监管要求。
最后,来自官方的支持也是国内大模型发展的底气所在。我国已明确提出到2027年形成一批临床专病专科垂直大模型和智能体应用,到2030年基层诊疗智能辅助基本实现全覆盖,二级以上医院普遍开展医学影像智能辅助诊断、临床诊疗智能辅助决策等应用。
这些因素都决定了在医疗大模型领域,国产可能是一个更为靠谱的选择。
02
2026年DeepSeek外最值得期待的国产医疗大模型
开年的热闹场景,注定今年将是医疗大模型一个重要的年头。那么,除了已经深度嵌入全行业生态,成为国产大模型标杆的DeepSeek外,国内还有哪些医疗大模型是今年最值得期待的?动脉网尝试从性能、迭代、资源、数据及行业热度等几个维度来做出我们的解读。
性能无疑是最为核心的考虑因素。目前,医疗大模型的性能基准测试以HealthBench(全球范围)和MedBench(汉语)最为权威。
HealthBench是由OpenAI开发的专门基准测试,用于系统评估模型结合真实医疗流程中,在安全性、临床适用性和专业推理等多个维度上的表现。联合了来自60个国家和地区的262位执业医师共同构建,收录了5000份真实医疗对话场景,每份对话均配有医师定制的评分标准表用于评估模型回复。
MedBench则由上海人工智能实验室发布,是国内首个面向垂直大模型、专用大模型和应用场景的医疗大模型评测与验证体系,目前已升级至 MedBench 4.0。这一基准测试覆盖大语言模型、多模态大模型及智能体三大类,围绕医学知识问答、语言理解、生成、复杂推理及安全伦理等维度构建共60个评测集70余万专业评测题,并覆盖10项细分任务。
值得一提的是,MedBench分为评测榜单和自测榜单。根据说明,两者涉及的数据集不尽相同,且自测榜单通过模型答案上传获得结果而非API提交,不如评测榜单严谨。因此,本文主要参考评测榜单。
除了两大基准测试体系,一些权威机构的榜单和赛事也能够体现医疗大模型的性能水平,在此不再一一阐述。
大模型仍然处于高速发展阶段,技术仍有很多优化提升空间。通过版本迭代实现性能的巨大提升在过往已经屡见不鲜。同时,模型迭代需要投入包括人力和算力在内不少资源——即便开源模型的调优训练同样如此。这也可以从侧面说明企业的发展是否良性健康。因此,模型的迭代情况也是我们参考的重要因素。
总体而言,大模型是一种极其耗费资源的技术。庞大的算力需要海量昂贵的AI加速卡,算法的更新有赖于天才工程师的灵机一动,高质量的训练数据获取要么采购要么自建,上述归根结底都离不开一个字——钱。背后的现金流是否充裕,对于医疗大模型而言显然也是十分重要的一环。
数据对于医疗大模型来说至关重要,但高质量的医疗数据却十分稀缺。一方面,处于数据隐私合规等方面的考虑,医疗及医保机构对于数据态度十分谨慎;另一方面,即便不考虑这一因素,国内的医疗数据质量也难言乐观。若能与知名医疗机构合作,理论上不仅可以获得更好的数据,同时也可以使得产品在临床专家团队的帮助打磨下更为完善。
除此以外,行业热度也是我们考虑的因素。包括资本、政策、产业、学术和舆论层面的关注度与活跃程度。毕竟,在这个竞争激烈的领域,“酒香不怕巷子深”多少已经有些不合时宜了。
动脉网基于上述几个维度对当前国产主流医疗大模型进行了汇总,并按照一定权重加权,并将打分结果按照一定的权重加总。经过综合评判,我们认为下面这些大模型或将成为2026年国内最让人期待的十大医疗大模型(按拼音首字母排序)。
作为唯一“All-in医疗”的大模型独角兽,百川智能在这个开年狠狠火了一把。新发布的Baichuan-M3在HealthBench和HealthBench Hard踩着GPT-5.2登顶,紧随其后对标OpenEvidence的Baichuan-M3 Plus又在短短数日内刷新M3创下的最低幻觉率纪录。这也将为其与儿童医学中心首都医科大学附属北京儿童医院合作的首个儿科大模型提供更好的支撑。
百度灵医大模型是国内首个“产业级”医疗大模型,在“重循证”思路下投入千亿Token优质医疗健康训练语料支持,覆盖300万+多模态影像数据、5亿+条权威健康科普内容、70万+项临床试验介绍信息及2000万+多语种医学文献资源等。灵医大模型也是国内首批商业化落地的医疗大模型,通过多产品矩阵及密集更新已提供健康管家、医生助手及企业服务等能力,支持多种接入方式,已覆盖800+医院、4000+基层医疗机构和大量药企,在智慧诊疗、智慧科研、智慧服务等场景实现规模化应用。
方舟健客杏石医疗大模型具备多维度能力,并将知识、导诊、预问诊、医生、电子病历五大智能体聚合实现慢病管理全链条闭环覆盖,其创新模式也被Nature关注并报道。它也是最早对标OpenEvidence的国内医疗大模型之一,整合中华医学会170多种核心期刊超110万篇文章,覆盖临床所有重点学科。据统计,其已累计已为医生提供近40万次技术辅助,帮医生节省了超6万个小时的工作时间,患者的单次问诊时间也缩短了70%以上。
京东健康京医千询医疗大模型在去年初成为国内医疗行业首个全面开源的垂类大模型。目前,京医千询医疗大模型已实现从通用基座模型到全科大模型,再到专科专病大模型的完整技术演进。依托这一技术底座,京东健康还打造了覆盖多个医疗场景的大模型产品体系,包括“京医”“知医”“卓医”等,已成为应用场景最丰富、与医院共建最深、合作医生最多、参与用户最广泛的医疗垂类大模型之一。
蚂蚁集团已经将医疗健康业务成为新战略支柱板块,蚂蚁·多模态医疗大模型可以预期也将会成为诸多AI应用的基石。依托超万亿tokens专业医疗语料底座,支撑自主研发千亿参数多模态模型,蚂蚁·多模态医疗大模型也是国内首个通过国家信通院医疗健康行业大模型双领域可信评估的大模型。在HealthBench、MedBench等国内外行业榜单中始终名列前茅。
借助几乎无所不在的微信生态圈和健康领域“朋友圈”,基于腾讯混元大模型底座的腾讯健康医疗大模型可能是目前在基层应用最为广泛的医疗大模型之一。截至去年9月,由其驱动的AI导辅诊服务在全国34个省、直辖市、自治区的近10000家各级医疗机构得到广泛应用,并已实现“微信直连”。各类“开箱即用”的医疗AI解决方案服务超过1300家机构,涵盖医院、药械企业、科研院校、医疗科技企业。
在最新的一期MedBench评测榜单中,微医医疗大模型表现突出,拿下两个冠军和一个亚军。在AI落地上,微医也走在前列——在其向港交所提交的招股书中,其2025年上半年AI医疗服务收入已达总营收九成以上;且按2024年收入统计,微医在中国数字健康服务市场及AI医疗健康解决方案市场中均位列第一。
自2023年以来,讯飞医疗旗下讯飞星火医疗大模型已经历多次迭代,核心医疗能力不断精进,多次在评测榜单中上榜。试点数据显示,星火医疗大模型专科诊断合理率提升至96%,跨科室诊断合理率提升至91%,病历书写时间减少50%,已达等级医院主任级医师水平。基于该模型的医生助理已覆盖全国801个区县,累计提供11亿次辅助诊断;AI健康助手下载量则已突破2400万次,完成超1.6亿次AI健康咨询。
医渡科技大模型也是评测榜单中的常客,已授权处理覆盖超过10000家医院共13亿患者人次的近70亿份医疗记录,沉淀了大量多维度可量化的知识图谱。基于该大模型,医渡科技还与多家医院合作打造专科大模型及智能体。在第十一届中国健康信息处理大会上,医渡科技荣获“医学NLP代码自动生成测评”冠军及“最佳论文奖”,体现了医疗垂类大模型领域的技术实力。
未来医生始终专注于医疗AI在严肃诊疗领域的应用落地,证实其与三甲主治医师诊疗一致性达到96%。基于该大模型的最新研究成果——探索医疗AI临床适用性的评估标准CSEDB(临床安全-有效性双轨基准)也于近日发表于npj Digital Medicine——未来医生在其中获得了出色的成绩。

除了上述这些大模型外,另外一些国内医疗大模型依然相当有特点。尤其是之前的医疗AI企业。以数坤为例,其近年来的技术与产品重心已从单点算法或模型能力比拼,转向多模态医疗大模型在真实医疗体系中的规模化落地与长期运行能力建设。
目前,数坤的多模态医疗大模型及相关智能体已在全国 5000 余家医院中应用,覆盖诊疗、管理与健康全流程,并在多地医共体、省级平台和真实世界场景中持续迭代,实现了“体系级落地能力”。其价值更依赖长期临床验证与医疗系统级实践。
此外,包括阿里达摩院、联影、脉得智能和深睿等以往以AI影像为标签的企业及机构近年来也颇为重视大模型的发展,并将大量技术与产品重心向多模态医疗大模型方向倾斜,为自己打上了“大模型”的标签。
除了影像AI厂商,传统医疗信息化及医疗大数据企业也纷纷进军大模型领域,比如东软集团、福鑫、浪潮健康等。
此外,在医疗与保险这一高度专业、强规则约束的领域,以行业数据、业务规则和场景理解为核心,持续迭代面向支付、理赔与患者服务的国产大模型也有亮点。比如,镁信健康自主研发的mind42.ai被视为AI驱动医疗支付与服务协同的代表性平台之一。
其面向真实医疗支付与服务场景提供系统级支持,将分散于医药、保险与服务环节中的多源数据进行统一建模与规则整合,支撑复杂支付路径的自动匹配与执行,是镁信健康“一码直付”及多项核心业务能力的重要技术底座。截至 2025年12月,mind42.ai已累计服务覆盖4.43亿保单量,包含多种保险产品与用药、就医场景。
这些企业的加入,也使得目前医疗大模型与马拉松起跑阶段类似——热闹拥挤、你追我赶。在这样一个马拉松一般的赛道,暂时领跑可能并不代表最终能够抢先撞线。谁能够在未来拉开身位,让我们拭目以待。

