声明:本文源自微信公众号光锥智能,作者白鸽,经站长之家授权转载发布。百川智能专注医疗领域后,交出了一份令人瞩目的答卷!8月11日,百川智能正式推出第二款开源医疗增强推理大模型Baichuan-M2,这款拥有32B参数量的大模型,在OpenAI的Healthbench评测集上表现卓越,超越了仅发布5天的开源模型gpt-oss-120b,更在所有开源模型中拔得头筹。除gpt-oss-120b外,Baichuan-M2还全面领先GPT-5及其他所有开源与闭源前沿模型,以更小的模型尺寸实现了医疗能力的反超,成为全球开源医疗大模型领域的佼佼者。与此同时,大模型的应用不再局限于效果,更注重低成本落地。尤其在医疗健康领域,模型涉及大量敏感隐私信息,医疗机构对私有化部署的需求日益强烈,但传统部署往往伴随着高昂成本。Baichuan-M2则以极低的落地门槛打破了这一局面,支持RTX4090单卡部署,显著提升了模型在真实医疗场景中的应用可能性和可扩展性。这短短5天的“攻防战”,不仅改写了全球医疗大模型的实力排名,更在中美通用大模型差距持续扩大的背景下,展现了中国团队在AI垂直行业大模型赛道中的弯道超车能力。当前,医疗领域已成为大模型最重要、最具潜力的应用场景之一,逐渐成为全球共识。然而,作为应用底座的医疗大模型,行业尚未出现特别突出的产品。即使是OpenAI最新发布的GPT-5,在数学、代码、写作、知识能力等方面表现优异,但在医疗领域的得分依然较低,这表明医疗大模型的发展仍任重道远。而中美垂直行业大模型的能力差距并不显著,作为中国头部大模型企业代表,百川智能此次在医疗大模型领域已实现与OpenAI的并驾齐驱。那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能是如何实现弯道超车的?让我们深入解析Baichuan-M2的硬实力。

长期以来,模型在医学考试(如USMLE)上的表现被视为衡量其医疗能力的重要指标。然而,随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。毕竟,医疗AI的核心在于解决实际问题,而非“刷题机器”。因此,医疗能力的评测需要系统化方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。今年5月,OpenAI发布的HealthBench医疗健康评测集,正是全球公认的医疗大模型“能力试金石”。该测评集包含5000个广泛场景的医患多轮对话,由262位人类医生编写的48562个医疗评价规则进行评估,涵盖标准版本和更具挑战性的Hard版本。在标准版HealthBench中,Baichuan-M2以60.1的高分超越gpt-oss120b(57.6分),并力压Qwen3-235B、Deepseek R1、Kimi K2等全球开源大模型。同时,Baichuan M2在医疗对话任务中展现出显著优势,包括紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。在Hard版本HealthBench中,Baichuan-M2以34.7分打破纪录,成为全球仅有的两款超过32分的模型之一,力压所有顶尖闭源大模型,与GPT-5并驾齐驱。尽管HealthBench已收集大量真实医疗场景数据,但现实情况往往更加复杂多样。不过,基于该评测,GPT-5和Baichuan-M2在多数医疗场景上的问答质量已超越资深医生,尤其在知识更新速度和全面性上,能为人类医生提供强大支持。那么,百川智能的Baichuan-M2是如何以32B参数实现以小博大的?其核心思路在于让大模型像医生一样思考、应对真实医患场景。从技术角度,这背后是百川智能在大型验证系统、端到端强化学习、AI患者模拟器、多类型医疗数据深度推理等四个方面的创新探索。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图

近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,显著提升了模型效果。然而,强化学习在数学、代码、科学等领域之所以效果显著,是因为这些领域的数据是静态的,由简洁的问题和答案构成。而医疗问题复杂多变,没有标准答案,同一症状可能对应多种病因,治疗方案也因患者个体差异而异。因此,医疗领域的强化学习不仅要验证诊断结果的准确性,还要验证问诊对话过程是否符合医生思维,这是一个动态验证过程,导致传统强化学习规则在医疗领域表现不佳。针对这一挑战,百川智能以构建Large Verifier System为核心,结合医疗场景特点设计了一套全面的医疗Verifier系统。通俗来说,如果将大模型比作医学实习生,这个系统就像一位要求极高、异常挑剔的医疗专家,从医疗正确性、完备性、安全性及患者友好性等多维度评估模型输出,引导其改正不足,使其思维方式更贴近专业医生。但要让这个系统成为严谨的医疗专家,关键在于模拟人类医生在听诊时分辨患者描述中的逻辑漏洞、从含混表达中辨别真实病因的能力。现实中患者几乎无法全面准确表达症状,仅基于静态病例和指南训练,模型难以掌握这一能力。为突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。该模拟器用真实数据构造上万个不同年龄、性别、症状的AI患者,最大程度还原真实医疗场景,特别是包含错误噪声的表达。7个月后,百川升级患者模拟器并引入模型端到端强化学习,使Baichuan-M2在HealthBench等评测上取得更大突破。这个模拟器的核心作用是让AI在训练时与虚拟病人不断对话,而“考官”会根据聊天情况实时调整打分标准,帮助AI练出“随机应变”的能力,即使病人信息混乱不全,也能重新判断病情,并决定是继续问诊还是直接给出结论。此外,为提升AI的医学知识学习效率,百川智能还采用了多阶段强化学习策略,将复杂任务分解为医学常识、医患沟通技巧、复杂病例诊断等分层训练阶段,逐步提升AI能力,避免“一口吃成胖子”。综合来看,百川智能用“智能考官”判断AI表现,用“真实病例+虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实场景,最终使大模型具备靠谱医生的能力。

但在AI大模型落地应用浪潮中,模型不仅要有能力,更要能低成本落地。尤其在垂直行业,许多大模型效果虽好,却因部署运营成本过高而沦为“demo”。医疗大模型落地既要效果好,又要成本低。早在2016年深度学习浪潮中,AI就已开始在医疗场景落地,但当时更多聚焦于语音语义、图像等单点功能应用。而这一代医疗大模型开启了全新范式,其能力与上一代医疗AI相比已产生质的飞跃,不仅能提升效率,还能通过Agent方式全流程融入诊中、诊前、诊后环节,为AI落地医疗场景打开更广阔空间。百川智能医疗大模型的迭代和落地正是这一颠覆性变化的缩影。在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。这背后最关键的一点在于,Baichuan-M2为适配中国医疗场景,从医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,部分优势源于对中国医疗场景的适配性。例如,在真实肝癌治疗案例中,针对CNLC IIa期(BCLC B期)患者,M2首选推荐解剖性肝右叶切除,而gpt-oss-120b建议首选经动脉化疗栓塞术(TACE)。临床医学专家认为,类似情况在中国医疗场景中还有很多。手术切除或TACE都是可选方案,差异在于中西方指南不同,并非医学上的高下之分,而是基于本地患者特点、医疗资源与医学发展水平权衡的最优解。医疗大模型能否将全球医学知识转化为符合本地优势特长的临床决策,是为其提供切实服务的关键。Baichuan-M2为此所做的专门优化,让中国临床场景有了专属的顶尖模型。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图1

更为重要的一点在于,Baichuan-M2能让中国万千医疗机构以更低成本部署使用。医疗大模型落地面临“两难”:追求高精度往往意味着高成本,而低成本方案又难以满足复杂场景的推理需求。Baichuan-M2通过技术优化和开源模式打破了这一困境。百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1H20双节点部署方式,成本降低了57倍。同时,其基于Eagle-3训练的Baichuan-M2-Spec版本,单用户场景下token吞吐提升74.9%。开源大模型特性支持二次开发,可根据具体场景轻量化训练,避免冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动技术普惠应用。它通过“高精度推理+开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。

直面全球差距,中国医疗AI的突围之道在于深耕垂直领域。今年是AI大模型浪潮兴起的第三年,但中国通用大模型在全球市场中仍处于跟随者地位。近期在首届全球AI象棋争霸赛中,中国大模型首轮即被淘汰,凸显中美在通用大模型能力和技术创新层面的差距。然而,中国更擅长推动大模型落地应用,而这正是我们在AI垂直行业赛道弯道超车的关键。百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势”的领域深耕,用反超OpenAI的成绩证明“中国可以在垂直赛道做全球第一”。通过开源模式,百川智能降低了医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分领域构建专属模型,加速医疗AI的落地与创新。此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗深度应用,推动AI医疗从“实验室”走向“临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。

百川M2医疗大模型参数小胜GPT-5登顶世界第一插图2

最新快讯

2025年08月13日

16:05
微新创想8月13日快讯 广东近日上演惊心动魄的一幕 一名男孩在乡间小路遭遇牛犊疯狂追击 眼看就要被追上 男孩急中生智纵身一跃跳入附近水田试图躲避 然而令人意想不到的是 这头异常亢奋的牛犊竟也毫不犹豫地跃入水中紧追不舍 目击者称 或许是连日高温导致牛犊情绪失控 男孩虽惊无险 但这起事件令人瞠目结舌 这起惊险事件迅速引发关注 视频画面中 牛犊如饿狼般紧追男孩 而...
16:05
微新创想8月13日重磅消息,知名数码博主数码闲聊站率先揭露了备受期待的小米16系列的影像配置细节,引发业界广泛关注。据博主透露,小米16系列在影像系统上实现了全面突破,前置摄像头升级至5000万像素,暗光拍摄能力得到显著提升,同时支持AF自动对焦、广视角拍摄以及4K 60fps高清视频录制,为用户带来更出色的自拍和视频创作体验。 在核心后置摄像头方面,小米1...
16:05
微新创想8月13日独家消息,知名博主定焦数码率先透露,华为即将推出的全新三折叠屏旗舰Mate XTs非凡大师,计划于9月10日正式亮相。这一时间点与德国运营商泄露的iPhone17系列发布会日期不谋而合,后者同样定于北京时间9月10日凌晨举行,两大科技巨头的新品发布会再度上演激烈撞期。回顾去年,iPhone16系列于9月10日凌晨1点震撼发布,而华为则紧随其...
16:05
近日,江苏无锡一家水果店推出的标价2999元的日本进口方形西瓜,迅速成为网络热议焦点。这款被网友戏称为"西瓜界爱马仕"的奢侈品级水果,在社交平台上掀起了轩然大波。部分网友直呼"天价西瓜令人咋舌",也有消费者好奇"近三千元的西瓜是否别有洞天",更有幽默网友调侃"切开后是不是要配金叉子享用"。 8月11日,记者实地探访涉事水果店,店员证实店内售卖的方形西瓜确为日...
16:05
抖音再推重磅扶持政策,MCN机构迎来新机遇与挑战 近日,抖音面向MCN机构推出全新激励计划——新芽计划,旨在通过流量与现金双重激励,扶持优质内容创作者与机构。据悉,创作者完成指定任务最高可获得25000元流量券,而MCN机构更有机会斩获高达10万元的现金奖励。这是继"抖音精选计划"之后,抖音再次释放出对优质内容的强烈扶持信号,为MCN机构带来发展新机遇的同时...
16:05
腾讯音乐娱乐集团于8月12日发布2025年第二季度财报,交出一份亮眼的成绩单。总收入达84.4亿元,同比增长17.9%;调整后净利润为26.4亿元,同比增长33.0%。在多元化的网络娱乐方式和日益分散的用户注意力背景下,腾讯音乐能取得如此成绩实属不易。然而数据背后更值得探究的是其增长逻辑——如何在内容供给与平台功能、产品体验与用户关系之间架设桥梁,构建稳健的...
16:05
开源AI领域近日迎来重大突破,一款名为Jan-v1的深度研究模型正式问世,凭借卓越性能和独特优势迅速引发广泛关注。该模型基于阿里云Qwen3-4B-Thinking模型进行深度微调,直接对标商业化产品Perplexity Pro,却以仅4亿参数的精巧身姿展现出惊人的实力。 Jan-v1在性能表现上超越预期,其91%的SimpleQA准确率与商业产品不相上下,...
16:05
2025年8月13日,江丰电子正式发布重大战略举措,宣布将与日本株式会社爱发科携手整合双方在平板显示靶材领域的核心业务。此举标志着两家企业在半导体材料领域的深度合作迈入新阶段。江丰电子方面表示,其平板显示靶材产品已成功获得国内主流显示面板厂商的全面认证,并已实现规模化批量供货,市场表现优异。与此同时,爱发科作为OLED靶材技术的全球领导者,拥有业界领先的技术...
16:05
2025年8月13日,奥来德(股票代码688378)正式发布其2025年上半年度业绩预告,数据显示公司归属于母公司所有者的净利润预计在2500万元至2900万元之间,与去年同期相比出现了显著的下滑,降幅介于68.41%至72.77%之间。这一业绩波动背后,主要原因是公司业务结构的显著变化。尽管在材料销售收入方面,奥来德实现了约20%的同比增长,显示出其在相关...
16:05
自8月20日起,理想汽车正式在全国范围内启动理想i8的首批交付工作,标志着这款备受瞩目的旗舰车型终于走入消费者视野。根据公司最新披露的计划,理想汽车将在9月底前完成超过8000台理想i8的交付任务,并携手供应链合作伙伴共同冲击10000台的年度交付里程碑。这一雄心勃勃的目标旨在确保广大用户能够在国庆黄金周前顺利提车,共享节日的喜悦。 理想汽车创始人李想也在社...
16:05
华兰生物2025年8月13日发布重要公告,宣布其自主研发的冻干b型流感嗜血杆菌结合疫苗(Hib疫苗)已成功获得国家药品监督管理局(NMPA)核准签发的《药物临床试验批准通知书》。这一关键性突破意味着该疫苗已完全符合药品注册要求,即将正式启动针对预防b型流感嗜血杆菌所致侵袭性感染的临床试验。 此次获批不仅标志着华兰生物在疫苗研发领域迈入全新阶段,更彰显了该公司...
16:05
2025年8月13日,小米集团股价迎来强劲反弹,单日涨幅持续扩大至3%,展现出市场对其发展前景的高度认可。这一积极表现的背后,是投资者信心的显著增强,他们正密切关注着这家科技巨头在多个领域的战略动向。市场分析人士普遍指出,小米近期在智能硬件产品线拓展和生态链企业布局方面取得的突破性进展,是支撑股价走高的核心动力。从智能家电到可穿戴设备,再到不断完善的物联网生...