声明:本文源自微信公众号光锥智能,作者白鸽,经站长之家授权转载发布。百川智能专注医疗领域后,交出了一份令人瞩目的答卷!8月11日,百川智能正式推出第二款开源医疗增强推理大模型Baichuan-M2,这款拥有32B参数量的大模型,在OpenAI的Healthbench评测集上表现卓越,超越了仅发布5天的开源模型gpt-oss-120b,更在所有开源模型中拔得头筹。除gpt-oss-120b外,Baichuan-M2还全面领先GPT-5及其他所有开源与闭源前沿模型,以更小的模型尺寸实现了医疗能力的反超,成为全球开源医疗大模型领域的佼佼者。与此同时,大模型的应用不再局限于效果,更注重低成本落地。尤其在医疗健康领域,模型涉及大量敏感隐私信息,医疗机构对私有化部署的需求日益强烈,但传统部署往往伴随着高昂成本。Baichuan-M2则以极低的落地门槛打破了这一局面,支持RTX4090单卡部署,显著提升了模型在真实医疗场景中的应用可能性和可扩展性。这短短5天的“攻防战”,不仅改写了全球医疗大模型的实力排名,更在中美通用大模型差距持续扩大的背景下,展现了中国团队在AI垂直行业大模型赛道中的弯道超车能力。当前,医疗领域已成为大模型最重要、最具潜力的应用场景之一,逐渐成为全球共识。然而,作为应用底座的医疗大模型,行业尚未出现特别突出的产品。即使是OpenAI最新发布的GPT-5,在数学、代码、写作、知识能力等方面表现优异,但在医疗领域的得分依然较低,这表明医疗大模型的发展仍任重道远。而中美垂直行业大模型的能力差距并不显著,作为中国头部大模型企业代表,百川智能此次在医疗大模型领域已实现与OpenAI的并驾齐驱。那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能是如何实现弯道超车的?让我们深入解析Baichuan-M2的硬实力。

长期以来,模型在医学考试(如USMLE)上的表现被视为衡量其医疗能力的重要指标。然而,随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。毕竟,医疗AI的核心在于解决实际问题,而非“刷题机器”。因此,医疗能力的评测需要系统化方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。今年5月,OpenAI发布的HealthBench医疗健康评测集,正是全球公认的医疗大模型“能力试金石”。该测评集包含5000个广泛场景的医患多轮对话,由262位人类医生编写的48562个医疗评价规则进行评估,涵盖标准版本和更具挑战性的Hard版本。在标准版HealthBench中,Baichuan-M2以60.1的高分超越gpt-oss120b(57.6分),并力压Qwen3-235B、Deepseek R1、Kimi K2等全球开源大模型。同时,Baichuan M2在医疗对话任务中展现出显著优势,包括紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。在Hard版本HealthBench中,Baichuan-M2以34.7分打破纪录,成为全球仅有的两款超过32分的模型之一,力压所有顶尖闭源大模型,与GPT-5并驾齐驱。尽管HealthBench已收集大量真实医疗场景数据,但现实情况往往更加复杂多样。不过,基于该评测,GPT-5和Baichuan-M2在多数医疗场景上的问答质量已超越资深医生,尤其在知识更新速度和全面性上,能为人类医生提供强大支持。那么,百川智能的Baichuan-M2是如何以32B参数实现以小博大的?其核心思路在于让大模型像医生一样思考、应对真实医患场景。从技术角度,这背后是百川智能在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据深度推理等四个方面的创新探索。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图

近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,显著提升了模型效果。然而,强化学习在数学、代码、科学等领域之所以效果显著,是因为这些领域的数据是静态的,由简洁的问题和答案构成。而医疗问题复杂多变,没有标准答案,同一症状可能对应多种病因,治疗方案也因患者个体差异而异。因此,医疗领域的强化学习不仅要验证诊断结果的准确性,还要验证问诊对话过程是否符合医生思维,这是一个动态验证过程,导致传统强化学习规则在医疗领域表现不佳。针对这一挑战,百川智能以构建Large Verifier System为核心,结合医疗场景特点设计了一套全面的医疗Verifier系统。通俗来说,如果将大模型比作医学实习生,这个系统就像一位要求极高、异常挑剔的医疗专家,从医疗正确性、完备性、安全性及患者友好性等多维度评估模型输出,引导其改正不足,使其思维方式更贴近专业医生。但要让这个系统成为严谨的医疗专家,关键在于模拟人类医生在听诊时分辨患者描述中的逻辑漏洞、从含混表达中辨别真实病因的能力。现实中患者几乎无法全面准确表达症状,仅基于静态病例和指南训练,模型难以掌握这一能力。为突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。该模拟器用真实数据构造上万个不同年龄、性别、症状的AI患者,最大程度还原真实医疗场景,特别是包含错误噪声的表达。7个月后,百川升级患者模拟器并引入模型端到端强化学习,使Baichuan-M2在HealthBench等评测上取得更大突破。这个模拟器的核心作用是让AI在训练时与虚拟病人不断对话,而“考官”会根据聊天情况实时调整打分标准,帮助AI练出“随机应变”的能力,即使病人信息混乱不全,也能重新判断病情,并决定是继续问诊还是直接给出结论。此外,为提升AI的医学知识学习效率,百川智能还采用了多阶段强化学习策略,将复杂任务分解为医学常识、医患沟通技巧、复杂病例诊断等分层训练阶段,逐步提升AI能力,避免“一口吃成胖子”。综合来看,百川智能用“智能考官”判断AI表现,用“真实病例+虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实场景,最终使大模型具备靠谱医生的能力。

但在AI大模型落地应用浪潮中,模型不仅要有能力,更要能低成本落地。尤其在垂直行业,许多大模型效果虽好,却因部署运营成本过高而沦为“demo”。医疗大模型落地既要效果好,又要成本低。早在2016年深度学习浪潮中,AI就已开始在医疗场景落地,但当时更多聚焦于语音语义、图像等单点功能应用。而这一代医疗大模型开启了全新范式,其能力与上一代医疗AI相比已产生质的飞跃,不仅能提升效率,还能通过Agent方式全流程融入诊中、诊前、诊后环节,为AI落地医疗场景打开更广阔空间。百川智能医疗大模型的迭代和落地正是这一颠覆性变化的缩影。在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。这背后最关键的一点在于,Baichuan-M2为适配中国医疗场景,从医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,部分优势源于对中国医疗场景的适配性。例如,在真实肝癌治疗案例中,针对CNLC IIa期(BCLC B期)患者,M2首选推荐解剖性肝右叶切除,而gpt-oss-120b建议首选经动脉化疗栓塞术(TACE)。临床医学专家认为,类似情况在中国医疗场景中还有很多。手术切除或TACE都是可选方案,差异在于中西方指南不同,并非医学上的高下之分,而是基于本地患者特点、医疗资源与医学发展水平权衡的最优解。医疗大模型能否将全球医学知识转化为符合本地优势特长的临床决策,是为其提供切实服务的关键。Baichuan-M2为此所做的专门优化,让中国临床场景有了专属的顶尖模型。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图1

更为重要的一点在于,Baichuan-M2能让中国万千医疗机构以更低成本部署使用。医疗大模型落地面临“两难”:追求高精度往往意味着高成本,而低成本方案又难以满足复杂场景的推理需求。Baichuan-M2通过技术优化和开源模式打破了这一困境。百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1H20双节点部署方式,成本降低了57倍。同时,其基于Eagle-3训练的Baichuan-M2-Spec版本,单用户场景下token吞吐提升74.9%。开源大模型特性支持二次开发,可根据具体场景轻量化训练,避免冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动技术普惠应用。它通过“高精度推理+开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。

直面全球差距,中国医疗AI的突围之道在于深耕垂直领域。今年是AI大模型浪潮兴起的第三年,但中国通用大模型在全球市场中仍处于跟随者地位。近期在首届全球AI象棋争霸赛中,中国大模型首轮即被淘汰,凸显中美在通用大模型能力和技术创新层面的差距。然而,中国更擅长推动大模型落地应用,而这正是我们在AI垂直行业赛道弯道超车的关键。百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势”的领域深耕,用反超OpenAI的成绩证明“中国可以在垂直赛道做全球第一”。通过开源模式,百川智能降低了医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分领域构建专属模型,加速医疗AI的落地与创新。此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗深度应用,推动AI医疗从“实验室”走向“临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图2

最新快讯

2025年08月14日

06:12
2025年8月14日,美国交易所的铜库存迎来历史性突破,连续增长天数达到惊人的100天,这一数据不仅刷新了自1992年有记录以来最长连续增长纪录,更在金属交易市场掀起轩然大波。这一异常增长趋势的背后,是市场供应过剩与需求放缓的双重压力,引发了全球业界的高度关注和深入探讨。铜作为全球工业生产不可或缺的基础材料,其库存数据的波动往往被视为经济健康状况的重要风向标...
06:12
2025年8月14日,西太平洋银行正式公布了其第三季度的财务报告,数据显示该行普通股一级资本充足率达到了12.3%,净息差则稳定在1.99%。这一系列关键指标不仅揭示了银行在本季度的资本实力,更直观展现了其盈利能力的稳健表现。作为一家在亚太地区具有重要影响力的金融机构,西太平洋银行的这一成绩充分体现了其在复杂经济环境下的风险管理能力和业务发展水平。从资本充足...
06:12
截至8月13日,2025年基金分红总额已突破1415亿元,同比激增近40%,展现出基金行业的强劲发展势头。其中,权益类基金表现尤为亮眼,分红金额高达348.84亿元,较2024年同期增长超过3倍,成为市场焦点。 权益类基金分红大幅增长主要源于两大核心因素。一方面,基金整体业绩表现显著提升,为分红提供了坚实的物质基础。众多权益类基金在资本市场中斩获颇丰,为投资...
06:12
2025年8月14日,桥水基金最新公布的13F文件揭示了一项引人注目的投资动向。根据文件数据,截至6月30日当季,桥水基金对阿里巴巴、拼多多、百度和京东等中概股进行了全面清仓操作。这一系列减持行为显示出该基金在中概股投资上的战略收缩,与此前保持相对稳定的配置策略形成鲜明对比。与此同时,桥水基金却逆势大幅增持英伟达股票,仓位增幅显著。这一投资组合的调整清晰地反...
06:12
2025年8月14日,韩国海关总署发布最新贸易数据,揭示了该国7月份进出口价格的动态变化。数据显示,出口物价指数当月同比下降4.3%,但环比上月上涨1.0%,显示出一定程度的回暖迹象。与此同时,进口物价指数同比下降幅度更为显著,达到5.9%,环比上月则微增0.9%。这一系列数据共同描绘出韩国对外贸易价格水平持续走低的态势,尽管整体降幅较前期有所收窄,但价格压...
06:12
2025年8月14日,全球金融市场传来积极信号,COMEX黄金期货价格稳步上涨0.24%,最终报收于3407.1美元/盎司,展现出较强的市场韧性。与此同时,COMEX白银期货价格更是大幅飙升1.47%,报至38.56美元/盎司,创近期新高。这一轮贵金属价格的普遍上涨并非偶然,而是多重因素共同作用的结果。 市场分析人士指出,贵金属价格走高的背后,主要受到全球经...
06:12
2025年8月14日,一家深耕人工智能(AI)基础设施领域的专业收购公司正式宣布,将通过特殊目的收购公司(SPAC)的路径启动首次公开募股(IPO)计划,目标融资规模高达1亿美元。这一创新性资本运作策略的核心目标,在于充分利用SPAC模式的独特优势,大幅压缩上市时间,为公司在AI基础设施领域的战略投资与业务拓展提供强有力的资金支持。通过这一举措,该公司有望在...
06:12
2025年8月14日,一则重磅消息引爆全球金融圈——比特币价格强势突破12.3万美元大关,较前一交易日激增超过2%。这一历史性时刻不仅刷新了近期价格记录,更标志着加密货币市场迎来久违的回暖信号。据市场监测数据显示,此次上涨主要得益于两大核心因素:一方面,随着全球经济逐步复苏,市场对加密货币的避险需求显著回升;另一方面,多家知名机构投资者开始重新调整资产配置,...
06:12
2025年8月13日,备受市场瞩目的散户抱团概念股指数(迷因股指数)迎来强劲反弹,当日收盘报收15.23点,涨幅高达5.33%,展现出强劲的市场动能。这一积极表现背后,是多只核心个股的协同发力,共同推动指数攀升。其中,Immunitybio股价表现尤为抢眼,涨幅达到14.17%,成为当日市场最耀眼的明星之一。紧随其后的是C3.ai,股价上涨9.99%,展现出...
06:12
2025年8月13日,纳斯达克生物科技指数迎来强劲反弹,收盘涨幅超过2.4%,展现出行业整体回暖的积极信号。在涨幅榜前列,Editas Medicine表现亮眼,股价飙升34.72%,成为当日最大赢家;Arcturus Therapeutics Holdings Inc.同样录得29.01%的惊人涨幅,紧随其后;Stoke Therapeutics以24.9...
06:12
2025年8月13日,生物科技板块表现惊艳,相关ETF强势上扬,收盘涨幅高达2.31%,一骑绝尘成为当日行业ETF中的领跑者。受此带动,多个行业ETF也纷纷录得不同程度的上涨。其中,全球航空业ETF、区域银行ETF、银行业ETF、医疗业ETF、可选消费ETF以及能源业ETF均展现出强劲动力,涨幅区间介于1.90%至1.16%之间,整体呈现普涨态势。值得注意的...
06:12
2025年8月13日,美国科技股七巨头(Magnificent 7)指数遭遇小幅回调,最终收跌0.31%,报收于190.22点,遗憾未能成功守住当日盘中创下的历史最高纪录——191.88点。在这一波动中,微软和Meta Platforms的表现最为疲软,股价最大跌幅一度达到1.64%;紧随其后的是英伟达、谷歌A和特斯拉,它们的股价最大跌幅也达到了0.86%。...