百川M2医疗大模型参数小胜GPT-5登顶世界第一

2025-08-13 14:45:25 互联网 73 次阅读

声明：本文源自微信公众号光锥智能，作者白鸽，经站长之家授权转载发布。百川智能专注医疗领域后，交出了一份令人瞩目的答卷！8月11日，百川智能正式推出第二款开源医疗增强推理大模型Baichuan-M2，这款拥有32B参数量的大模型，在OpenAI的Healthbench评测集上表现卓越，超越了仅发布5天的开源模型gpt-oss-120b，更在所有开源模型中拔得头筹。除gpt-oss-120b外，Baichuan-M2还全面领先GPT-5及其他所有开源与闭源前沿模型，以更小的模型尺寸实现了医疗能力的反超，成为全球开源医疗大模型领域的佼佼者。与此同时，大模型的应用不再局限于效果，更注重低成本落地。尤其在医疗健康领域，模型涉及大量敏感隐私信息，医疗机构对私有化部署的需求日益强烈，但传统部署往往伴随着高昂成本。Baichuan-M2则以极低的落地门槛打破了这一局面，支持RTX4090单卡部署，显著提升了模型在真实医疗场景中的应用可能性和可扩展性。这短短5天的“攻防战”，不仅改写了全球医疗大模型的实力排名，更在中美通用大模型差距持续扩大的背景下，展现了中国团队在AI垂直行业大模型赛道中的弯道超车能力。当前，医疗领域已成为大模型最重要、最具潜力的应用场景之一，逐渐成为全球共识。然而，作为应用底座的医疗大模型，行业尚未出现特别突出的产品。即使是OpenAI最新发布的GPT-5，在数学、代码、写作、知识能力等方面表现优异，但在医疗领域的得分依然较低，这表明医疗大模型的发展仍任重道远。而中美垂直行业大模型的能力差距并不显著，作为中国头部大模型企业代表，百川智能此次在医疗大模型领域已实现与OpenAI的并驾齐驱。那么，作为国内最早全力押注医疗AI赛道的大模型创企，百川智能是如何实现弯道超车的？让我们深入解析Baichuan-M2的硬实力。

长期以来，模型在医学考试（如USMLE）上的表现被视为衡量其医疗能力的重要指标。然而，随着相关题库的饱和，这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。毕竟，医疗AI的核心在于解决实际问题，而非“刷题机器”。因此，医疗能力的评测需要系统化方法，验证模型在推理决策、临床沟通等关键能力上的综合表现。今年5月，OpenAI发布的HealthBench医疗健康评测集，正是全球公认的医疗大模型“能力试金石”。该测评集包含5000个广泛场景的医患多轮对话，由262位人类医生编写的48562个医疗评价规则进行评估，涵盖标准版本和更具挑战性的Hard版本。在标准版HealthBench中，Baichuan-M2以60.1的高分超越gpt-oss120b（57.6分），并力压Qwen3-235B、Deepseek R1、Kimi K2等全球开源大模型。同时，Baichuan M2在医疗对话任务中展现出显著优势，包括紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。在Hard版本HealthBench中，Baichuan-M2以34.7分打破纪录，成为全球仅有的两款超过32分的模型之一，力压所有顶尖闭源大模型，与GPT-5并驾齐驱。尽管HealthBench已收集大量真实医疗场景数据，但现实情况往往更加复杂多样。不过，基于该评测，GPT-5和Baichuan-M2在多数医疗场景上的问答质量已超越资深医生，尤其在知识更新速度和全面性上，能为人类医生提供强大支持。那么，百川智能的Baichuan-M2是如何以32B参数实现以小博大的？其核心思路在于让大模型像医生一样思考、应对真实医患场景。从技术角度，这背后是百川智能在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据深度推理等四个方面的创新探索。

近一年来，大语言模型后训练范式的升级，特别是基于RLVR（Reinforcement Learning with Verifiable Rewards）方法的大规模强化学习训练，显著提升了模型效果。然而，强化学习在数学、代码、科学等领域之所以效果显著，是因为这些领域的数据是静态的，由简洁的问题和答案构成。而医疗问题复杂多变，没有标准答案，同一症状可能对应多种病因，治疗方案也因患者个体差异而异。因此，医疗领域的强化学习不仅要验证诊断结果的准确性，还要验证问诊对话过程是否符合医生思维，这是一个动态验证过程，导致传统强化学习规则在医疗领域表现不佳。针对这一挑战，百川智能以构建Large Verifier System为核心，结合医疗场景特点设计了一套全面的医疗Verifier系统。通俗来说，如果将大模型比作医学实习生，这个系统就像一位要求极高、异常挑剔的医疗专家，从医疗正确性、完备性、安全性及患者友好性等多维度评估模型输出，引导其改正不足，使其思维方式更贴近专业医生。但要让这个系统成为严谨的医疗专家，关键在于模拟人类医生在听诊时分辨患者描述中的逻辑漏洞、从含混表达中辨别真实病因的能力。现实中患者几乎无法全面准确表达症状，仅基于静态病例和指南训练，模型难以掌握这一能力。为突破这一瓶颈，百川技术团队升级迭代了今年初首创的“AI患者模拟器”。该模拟器用真实数据构造上万个不同年龄、性别、症状的AI患者，最大程度还原真实医疗场景，特别是包含错误噪声的表达。7个月后，百川升级患者模拟器并引入模型端到端强化学习，使Baichuan-M2在HealthBench等评测上取得更大突破。这个模拟器的核心作用是让AI在训练时与虚拟病人不断对话，而“考官”会根据聊天情况实时调整打分标准，帮助AI练出“随机应变”的能力，即使病人信息混乱不全，也能重新判断病情，并决定是继续问诊还是直接给出结论。此外，为提升AI的医学知识学习效率，百川智能还采用了多阶段强化学习策略，将复杂任务分解为医学常识、医患沟通技巧、复杂病例诊断等分层训练阶段，逐步提升AI能力，避免“一口吃成胖子”。综合来看，百川智能用“智能考官”判断AI表现，用“真实病例+虚拟病人”模拟实战，分阶段训练让AI既懂医学知识，又能灵活应对真实场景，最终使大模型具备靠谱医生的能力。

但在AI大模型落地应用浪潮中，模型不仅要有能力，更要能低成本落地。尤其在垂直行业，许多大模型效果虽好，却因部署运营成本过高而沦为“demo”。医疗大模型落地既要效果好，又要成本低。早在2016年深度学习浪潮中，AI就已开始在医疗场景落地，但当时更多聚焦于语音语义、图像等单点功能应用。而这一代医疗大模型开启了全新范式，其能力与上一代医疗AI相比已产生质的飞跃，不仅能提升效率，还能通过Agent方式全流程融入诊中、诊前、诊后环节，为AI落地医疗场景打开更广阔空间。百川智能医疗大模型的迭代和落地正是这一颠覆性变化的缩影。在实践应用中，今年2月，以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩，获得专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。这背后最关键的一点在于，Baichuan-M2为适配中国医疗场景，从医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。在中国临床诊疗场景的问题评测中，对比gpt-oss系列模型，Baichuan-M2展现出更明显的可用性优势，部分优势源于对中国医疗场景的适配性。例如，在真实肝癌治疗案例中，针对CNLC IIa期（BCLC B期）患者，M2首选推荐解剖性肝右叶切除，而gpt-oss-120b建议首选经动脉化疗栓塞术（TACE）。临床医学专家认为，类似情况在中国医疗场景中还有很多。手术切除或TACE都是可选方案，差异在于中西方指南不同，并非医学上的高下之分，而是基于本地患者特点、医疗资源与医学发展水平权衡的最优解。医疗大模型能否将全球医学知识转化为符合本地优势特长的临床决策，是为其提供切实服务的关键。Baichuan-M2为此所做的专门优化，让中国临床场景有了专属的顶尖模型。

更为重要的一点在于，Baichuan-M2能让中国万千医疗机构以更低成本部署使用。医疗大模型落地面临“两难”：追求高精度往往意味着高成本，而低成本方案又难以满足复杂场景的推理需求。Baichuan-M2通过技术优化和开源模式打破了这一困境。百川智能通过多种PTQ量化策略，对Baichuan-M2进行权重4bit量化，量化后模型精度接近无损，可在RTX4090上单卡部署，相比DeepSeek-R1H20双节点部署方式，成本降低了57倍。同时，其基于Eagle-3训练的Baichuan-M2-Spec版本，单用户场景下token吞吐提升74.9%。开源大模型特性支持二次开发，可根据具体场景轻量化训练，避免冗余成本，模型权重、训练代码全开放，企业/机构无需支付授权费。百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径，推动技术普惠应用。它通过“高精度推理+开源低成本”的组合，证明医疗大模型落地无需在效果与成本间妥协。

直面全球差距，中国医疗AI的突围之道在于深耕垂直领域。今年是AI大模型浪潮兴起的第三年，但中国通用大模型在全球市场中仍处于跟随者地位。近期在首届全球AI象棋争霸赛中，中国大模型首轮即被淘汰，凸显中美在通用大模型能力和技术创新层面的差距。然而，中国更擅长推动大模型落地应用，而这正是我们在AI垂直行业赛道弯道超车的关键。百川智能作为中国大模型创企之一，选择医疗这一“中国有需求、有数据优势”的领域深耕，用反超OpenAI的成绩证明“中国可以在垂直赛道做全球第一”。通过开源模式，百川智能降低了医疗AI技术门槛，让全球研究者、医疗机构可直接复用模型，在细分领域构建专属模型，加速医疗AI的落地与创新。此次发布会后，M2模型将进入全面落地期，百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗深度应用，推动AI医疗从“实验室”走向“临床一线”。未来，随着模型的落地，将为基层医疗、疾病诊断等场景带来革新，推动“AI医疗惠及全民”。

2025年11月18日

13:37

百川M2医疗大模型参数小胜GPT-5登顶世界第一

最新快讯

2025年11月18日

西藏改则县3.7级地震实时进展及应急响应情况

格芯收购新加坡AMF强化硅光子代工地位

IDC：2025上半年中国视频云市场达52.3亿美元 AI驱动增长

蓝思智能机器人新基地投产年产百万台AI设备打造全产业链标杆

维业股份子公司联合中标澳门大学20.86亿项目

北京海淀84亿综合用地挂牌上地板块价值高地

三木集团澄清：未投资平潭县项目投资传闻

肥多多签署多项跨境合作意向书推动数字农业国际合作

运满满冷运荣获2025全链价值实践成果数字化冷链平台引领行业新标杆

美团LongCat发布AMO-Bench数学评测基准难度超IMO推动AI推理发展

OceanBase发布AI原生数据库seekdb 开箱即用支持混合搜索

大秦铁路日运煤124.5万吨保障冬季能源供应