
AI医疗或成下一个AI规模化应用领域?2026年开年以来,AI医疗领域动作频频,且均聚焦C端试水。1月8日,OpenAI推出ChatGPT Health,允许用户共享Apple Health等应用中的电子病历和体征数据,由AI解答健康问题。1月11日,Anthropic发布Claude for Healthcare,通过与初创公司合作接入用户医疗数据,为用户提供健康咨询服务。这一系列动向释放出明确信号:2026年AI医疗新趋势——AI公司将医疗服务拓展至医院场景之外。
作为大模型五小龙中唯一All in AI医疗的选手,百川智能也传来新消息。1月13日,百川智能在北京举办M3大模型发布会,正式亮相自家的AI医疗新模型。官方数据显示,该模型在多项测试中超越OpenAI的GPT-5.2。拆解技术优势之余,百川CEO王小川还提出诸多非主流观点:技术才是真正的护城河,数据虽关键但非最核心要素;多模态并非主战场,语言大模型才是智能最高体现。

回顾2025年,对王小川和百川而言最重要的事,就是确立”用AI造医生”的发展路线。王小川表示,科研第一步是打造优质模型,这也是M1、M2到M3的迭代逻辑。2026年,百川迎来关键节点,王小川透露将推出AI硬件和C端产品,让商业化叙事从大模型走向具体产品。但这条路并不轻松,王小川透露百川账面仍有30亿现金,过去1年半烧掉20亿融资。
透过百川,我们得以审视AI医疗的过去与未来,这个赛道又将涌现哪些新可能?实测M3大模型在严肃医疗与泛健康领域的差异究竟如何?时隔4个多月,百川BaiChuan-M3正式亮相。官方评测显示,相比M2追赶海外模型,M3实现成功超越,在幻觉、HealthBench等测试中全面超越OpenAI的GPT-5.2。
除了数据印证,光锥智能的实测对比也颇具参考价值。与国内蚂蚁阿福对比发现,两者在诊断准确度上表现相似,都能给出症状猜测和检查建议。但M3在模拟真实就医场景时更胜一筹,而阿福更擅长追问补充信息。最直观的差异在于,M3能深入浅出解释病情来龙去脉,而非简单停留在术语判断上。

以”指标显示重度贫血但体感仅轻度疲劳”为例,两者都能准确判断为慢性贫血并建议检查。但M3在症状说明上更胜一筹,会解释贫血是心脏、血液、组织代偿的调整过程,并提醒用户”透支健康”的风险。这种差异源于百川自创的SCAN-bench评测体系——该体系联合150位一线医生,将就医过程拆解为病史采集、辅助检查和精准诊疗三个阶段,通过动态多轮交互完整展示模型思路。
更值得关注的是百川的医疗论文+自创算法组合。M3在解释病症原因和判断对症标准时,会引用1-3条论文文献佐证。以生理期延迟测试为例,M3结合论文指出”若无特殊变化可观察”,结论与医生建议完全一致。这种分段强化学习方法值得称道——将诊断拆分为问诊、鉴别诊断、实验室检测和最终诊断四个阶段,各阶段结论可传递至下一阶段,显著提升长时间问询任务的准确度。
M3在追问方面略逊于蚂蚁阿福,后者几乎每次都会连续追问补充信息。但M3通过风险项提示和针对不同用户的建档区分,在C端交互体验上表现成熟。上市、出海?比起这些,2026年AI医疗落地更值得关注。

关于AI医疗大模型发展,王小川提出诸多”非共识”观点。他认为医疗AI主战场从来不是多模态,而是语言大模型——评判模型能力至今仍以符号、语言为基础,医学本质是推理而非图像处理。数据同样非最关键要素,他举例说明Gemini和Claude虽C端用户少于OpenAI,仍能做出领先模型。当前阶段优势更多在于技术,而非用户规模。
在AI医疗领域,王小川预判了重要趋势——未来增量将主要出现在院外场景。”院内更多是手术执行和挂水服务,写病历、做质控绝非主流方向。”他分析国内医疗痛点:好医生供给不足、医患关系不平等、国内外就医环境差异、医学发展局限。OpenAI押注C端、蚂蚁阿福突破3500万月活,都印证了这个市场潜力。
百川目前的护城河在于技术、场景和产品形态:M3代表技术实力,场景定位更贴近家庭医生,但始终坚守不触碰医疗红线,专注于辅助决策。今年百川计划推出两款C端产品,并尝试布局睡眠相关AI硬件。

百川战略日益清晰,但商业化能否成功仍存疑问。国内C端变现风险重重,蚂蚁阿福至今未收费,医疗领域C端付费更面临舆论和准确性考验。上市、出海计划能否通过C端产品证明AI医疗商业化潜力?答案或许就在未来几个月。
