声明:本文源自微信公众号光锥智能,作者白鸽,经站长之家授权转载发布。百川智能专注医疗领域后,交出了一份令人瞩目的答卷!8月11日,百川智能正式推出第二款开源医疗增强推理大模型Baichuan-M2,这款拥有32B参数量的大模型,在OpenAI的Healthbench评测集上表现卓越,超越了仅发布5天的开源模型gpt-oss-120b,更在所有开源模型中拔得头筹。除gpt-oss-120b外,Baichuan-M2还全面领先GPT-5及其他所有开源与闭源前沿模型,以更小的模型尺寸实现了医疗能力的反超,成为全球开源医疗大模型领域的佼佼者。与此同时,大模型的应用不再局限于效果,更注重低成本落地。尤其在医疗健康领域,模型涉及大量敏感隐私信息,医疗机构对私有化部署的需求日益强烈,但传统部署往往伴随着高昂成本。Baichuan-M2则以极低的落地门槛打破了这一局面,支持RTX4090单卡部署,显著提升了模型在真实医疗场景中的应用可能性和可扩展性。这短短5天的“攻防战”,不仅改写了全球医疗大模型的实力排名,更在中美通用大模型差距持续扩大的背景下,展现了中国团队在AI垂直行业大模型赛道中的弯道超车能力。当前,医疗领域已成为大模型最重要、最具潜力的应用场景之一,逐渐成为全球共识。然而,作为应用底座的医疗大模型,行业尚未出现特别突出的产品。即使是OpenAI最新发布的GPT-5,在数学、代码、写作、知识能力等方面表现优异,但在医疗领域的得分依然较低,这表明医疗大模型的发展仍任重道远。而中美垂直行业大模型的能力差距并不显著,作为中国头部大模型企业代表,百川智能此次在医疗大模型领域已实现与OpenAI的并驾齐驱。那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能是如何实现弯道超车的?让我们深入解析Baichuan-M2的硬实力。

长期以来,模型在医学考试(如USMLE)上的表现被视为衡量其医疗能力的重要指标。然而,随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。毕竟,医疗AI的核心在于解决实际问题,而非“刷题机器”。因此,医疗能力的评测需要系统化方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。今年5月,OpenAI发布的HealthBench医疗健康评测集,正是全球公认的医疗大模型“能力试金石”。该测评集包含5000个广泛场景的医患多轮对话,由262位人类医生编写的48562个医疗评价规则进行评估,涵盖标准版本和更具挑战性的Hard版本。在标准版HealthBench中,Baichuan-M2以60.1的高分超越gpt-oss120b(57.6分),并力压Qwen3-235B、Deepseek R1、Kimi K2等全球开源大模型。同时,Baichuan M2在医疗对话任务中展现出显著优势,包括紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。在Hard版本HealthBench中,Baichuan-M2以34.7分打破纪录,成为全球仅有的两款超过32分的模型之一,力压所有顶尖闭源大模型,与GPT-5并驾齐驱。尽管HealthBench已收集大量真实医疗场景数据,但现实情况往往更加复杂多样。不过,基于该评测,GPT-5和Baichuan-M2在多数医疗场景上的问答质量已超越资深医生,尤其在知识更新速度和全面性上,能为人类医生提供强大支持。那么,百川智能的Baichuan-M2是如何以32B参数实现以小博大的?其核心思路在于让大模型像医生一样思考、应对真实医患场景。从技术角度,这背后是百川智能在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据深度推理等四个方面的创新探索。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图

近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,显著提升了模型效果。然而,强化学习在数学、代码、科学等领域之所以效果显著,是因为这些领域的数据是静态的,由简洁的问题和答案构成。而医疗问题复杂多变,没有标准答案,同一症状可能对应多种病因,治疗方案也因患者个体差异而异。因此,医疗领域的强化学习不仅要验证诊断结果的准确性,还要验证问诊对话过程是否符合医生思维,这是一个动态验证过程,导致传统强化学习规则在医疗领域表现不佳。针对这一挑战,百川智能以构建Large Verifier System为核心,结合医疗场景特点设计了一套全面的医疗Verifier系统。通俗来说,如果将大模型比作医学实习生,这个系统就像一位要求极高、异常挑剔的医疗专家,从医疗正确性、完备性、安全性及患者友好性等多维度评估模型输出,引导其改正不足,使其思维方式更贴近专业医生。但要让这个系统成为严谨的医疗专家,关键在于模拟人类医生在听诊时分辨患者描述中的逻辑漏洞、从含混表达中辨别真实病因的能力。现实中患者几乎无法全面准确表达症状,仅基于静态病例和指南训练,模型难以掌握这一能力。为突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。该模拟器用真实数据构造上万个不同年龄、性别、症状的AI患者,最大程度还原真实医疗场景,特别是包含错误噪声的表达。7个月后,百川升级患者模拟器并引入模型端到端强化学习,使Baichuan-M2在HealthBench等评测上取得更大突破。这个模拟器的核心作用是让AI在训练时与虚拟病人不断对话,而“考官”会根据聊天情况实时调整打分标准,帮助AI练出“随机应变”的能力,即使病人信息混乱不全,也能重新判断病情,并决定是继续问诊还是直接给出结论。此外,为提升AI的医学知识学习效率,百川智能还采用了多阶段强化学习策略,将复杂任务分解为医学常识、医患沟通技巧、复杂病例诊断等分层训练阶段,逐步提升AI能力,避免“一口吃成胖子”。综合来看,百川智能用“智能考官”判断AI表现,用“真实病例+虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实场景,最终使大模型具备靠谱医生的能力。

但在AI大模型落地应用浪潮中,模型不仅要有能力,更要能低成本落地。尤其在垂直行业,许多大模型效果虽好,却因部署运营成本过高而沦为“demo”。医疗大模型落地既要效果好,又要成本低。早在2016年深度学习浪潮中,AI就已开始在医疗场景落地,但当时更多聚焦于语音语义、图像等单点功能应用。而这一代医疗大模型开启了全新范式,其能力与上一代医疗AI相比已产生质的飞跃,不仅能提升效率,还能通过Agent方式全流程融入诊中、诊前、诊后环节,为AI落地医疗场景打开更广阔空间。百川智能医疗大模型的迭代和落地正是这一颠覆性变化的缩影。在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。这背后最关键的一点在于,Baichuan-M2为适配中国医疗场景,从医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,部分优势源于对中国医疗场景的适配性。例如,在真实肝癌治疗案例中,针对CNLC IIa期(BCLC B期)患者,M2首选推荐解剖性肝右叶切除,而gpt-oss-120b建议首选经动脉化疗栓塞术(TACE)。临床医学专家认为,类似情况在中国医疗场景中还有很多。手术切除或TACE都是可选方案,差异在于中西方指南不同,并非医学上的高下之分,而是基于本地患者特点、医疗资源与医学发展水平权衡的最优解。医疗大模型能否将全球医学知识转化为符合本地优势特长的临床决策,是为其提供切实服务的关键。Baichuan-M2为此所做的专门优化,让中国临床场景有了专属的顶尖模型。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图1

更为重要的一点在于,Baichuan-M2能让中国万千医疗机构以更低成本部署使用。医疗大模型落地面临“两难”:追求高精度往往意味着高成本,而低成本方案又难以满足复杂场景的推理需求。Baichuan-M2通过技术优化和开源模式打破了这一困境。百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1H20双节点部署方式,成本降低了57倍。同时,其基于Eagle-3训练的Baichuan-M2-Spec版本,单用户场景下token吞吐提升74.9%。开源大模型特性支持二次开发,可根据具体场景轻量化训练,避免冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动技术普惠应用。它通过“高精度推理+开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。

直面全球差距,中国医疗AI的突围之道在于深耕垂直领域。今年是AI大模型浪潮兴起的第三年,但中国通用大模型在全球市场中仍处于跟随者地位。近期在首届全球AI象棋争霸赛中,中国大模型首轮即被淘汰,凸显中美在通用大模型能力和技术创新层面的差距。然而,中国更擅长推动大模型落地应用,而这正是我们在AI垂直行业赛道弯道超车的关键。百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势”的领域深耕,用反超OpenAI的成绩证明“中国可以在垂直赛道做全球第一”。通过开源模式,百川智能降低了医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分领域构建专属模型,加速医疗AI的落地与创新。此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗深度应用,推动AI医疗从“实验室”走向“临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图2

最新快讯

2025年11月18日

13:37
11月18日12时15分,西藏阿里地区改则县突发3.7级地震,震源深度达28千米。经初步测定,震中坐标位于北纬32.85度、东经84.87度。值得庆幸的是,截至最新消息,当地尚未收到任何人员伤亡及财产损失的报告,这无疑为此次地震增添了一丝安慰。 面对这一自然现象,当地相关部门已迅速启动应急响应机制,第一时间组织专业队伍展开灾情排查工作。目前,救援人员正对震区...
13:37
2025年11月18日,全球领先的芯片制造商格芯正式宣布达成一项重大战略交易,成功收购了位于新加坡的先进微晶圆代工厂Advanced Micro Foundry。这一举措标志着格芯在硅光子技术领域的布局再添关键棋子,为其巩固全球代工市场领导地位注入强劲动力。根据格芯官方声明,通过此次并购,公司将成为全球收入规模最大的硅光子代工平台,进一步巩固其在下一代光电子...
13:37
2025年上半年,中国视频云市场迎来强劲复苏,整体规模达到52.3亿美元,同比增长8.9%,成功扭转了此前下滑趋势。这一关键数据由权威市场研究机构国际数据公司(IDC)在其最新发布的市场分析报告中正式揭晓。报告深入剖析了市场动态,特别指出音视频AI实时互动与智能媒体生产等前沿AI应用场景表现亮眼,半年内市场规模突破四千万美元大关,同比增幅高达三位数,展现出惊...
13:05
2025年11月18日,蓝思科技旗下全资子公司蓝思智能机器人在浏阳经开区永安园区迎来历史性时刻,全新生产基地正式投产运营。这座现代化基地占地高达400亩,拥有约18.9万平方米的宽敞厂房,将全面打造年产1万台套大型自动化设备与50万台具身智能机器人的强大产能,为全球AI硬件市场注入强劲动力。 该项目实现了从新材料研发到核心部件制造,再到整机组装的全产业链垂直...
13:05
2025年11月18日,维业股份正式宣布其全资子公司建泰建设与明信建筑置业有限公司组成的联合体,成功中标澳门大学横琴粤澳深度合作区校区南区的总承包工程。这一重要项目由广东横琴澳大高等教育发展有限公司负责发包,中标金额高达约20.86亿元人民币,标志着维业股份在大型基建领域取得了又一关键突破。 据悉,建泰建设与明信建筑经过激烈竞争,最终凭借卓越的综合实力和丰富...
13:05
11月17日,备受瞩目的北京海淀区上地0702街区综合用地正式进入公开出让阶段。这一地块位于素有"中国硅谷"之称的上地片区核心地带,总用地面积达7.71万平方米,规划总建筑面积约22.54万平方米,起始总价高达84.22亿元,折合楼面起价37366元/平方米,显示出其非凡的增值潜力。 该地块由三幅子地块构成,地理位置得天独厚,地处中关村软件园与上地产业集群的...
13:05
2025年11月18日,三木集团通过官方互动平台正式作出澄清,明确表示公司目前并未在福建省平潭县开展任何形式的工程项目或投资活动。此次公开声明的主要目的是为了有效回应近期市场流传的相关传闻,消除外界疑虑,确保信息透明度。三木集团在声明中强调,当前公司的战略重心依然聚焦于已建立的核心业务区域,所有经营活动都在既定框架内有序推进。对于未来可能的新投资计划,公司承...
13:05
2025年11月18日,备受瞩目的拉丁美洲代表团正式到访国联股份旗下肥多多公司,双方围绕“数字全球国际会客厅”平台的共建方案以及农业产业链的跨境合作展开了深度交流。此次会晤不仅聚焦于数字化技术的创新应用,更深入探讨了如何通过高效协作整合全球农业资源,实现产业链的优化升级。 在随后的签约仪式上,肥多多分别与中东辽宁总商会、中国拉丁美洲国际集团、内文卡数字公司以...
13:05
2025年11月18日,备受瞩目的第八届中国国际进口博览会在上海盛大开幕,同期举办的配套会议“2025全球贸易与国际物流高峰论坛”吸引了全球行业领袖共襄盛举。在此次盛会中,运满满冷运凭借其创新性的《数智驱动的冷链平台解决方案》脱颖而出,荣获“2025物流与供应链解决方案全链价值实践成果”殊荣。这一奖项是对运满满冷运在物流与供应链领域所展现出的卓越创新能力和行...
13:05
2025年11月18日,美团LongCat团队正式发布了备受瞩目的数学推理评测基准AMO-Bench,为人工智能在复杂数学推理领域的发展注入强劲动力。这一评测集精心收录了50道由竞赛专家原创的数学试题,其难度不仅对标国际数学奥林匹克(IMO)水平,更在多个维度上实现了超越,堪称人工智能逻辑推理能力的试金石。AMO-Bench的推出,将构建一个高标准、高难度的...
12:37
11月18日,OceanBase在2025年度发布会上重磅发布了其首款AI数据库——OceanBase SeekDB(简称SeekDB),正式开启AI数据库开源时代。这款创新产品通过仅需三行代码的极简开发方式,即可让开发者快速构建知识库、智能体等前沿AI应用,轻松应对百亿级多模态数据的复杂检索需求,真正实现"开箱即用"的AI数据基座体验。 SeekDB的核心...
12:30
大秦铁路11月煤炭运输量再创新高,截至17日累计发送2116.6万吨,日均发送量达到124.5万吨,环比增长23.9万吨。这一亮眼成绩的背后,是我国北方地区提前进入供暖季带来的强劲需求支撑。受强冷空气持续影响,多地气温骤降,北方供暖需求激增,煤炭运输市场迎来年度高峰。作为我国西煤东运战略通道的核心动脉,大秦铁路近期运力持续保持高位,日均发运量稳定突破120万...