编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2026年02月09日

20:06
微新创想:2月5日,海水提铀学术交流会暨技术创新联盟理事会在上海召开。会议聚焦海水提铀技术的最新进展与未来发展方向,标志着我国在这一领域迈出了重要一步。 中核集团牵头的联盟宣布,已于2025年在真实海洋环境下成功提取公斤级铀产品。这一成果表明海水提铀技术已正式从实验室阶段进入工程化应用阶段,为我国核能发展提供了新的资源获取途径。 此次技术突破对于保障我国铀资...
20:06
微新创想:2026年1月17日起,淘宝闪购面向全国直营城市四星及以上活跃骑手推出春节运力保障计划。该计划旨在确保春节期间的配送服务稳定运行,应对订单高峰带来的挑战。 活动覆盖回乡与返岗两个关键时段,分别为2月10日—19日和2月20日—3月1日。在这两个阶段,骑手可享受相应的车票补贴,回乡补贴为50元,返岗补贴为100元。此外,平台还提供节日留岗奖、单单奖、...
20:06
微新创想:2026年2月9日,信达生物制药集团与礼来制药宣布达成新一轮战略合作。双方将在肿瘤及免疫领域共同推进创新药物的全球研发。此次合作是两家企业自2015年以来的第七次携手,旨在加速临床开发与国际化布局,惠及全球患者。 合作基于双方在生物药研发、临床转化及商业化能力上的互补优势。信达生物在肿瘤免疫治疗领域拥有深厚的技术积累,礼来制药则具备强大的全球市场推...
19:35
微新创想:2026年2月9日,国家医保局宣布牵头组建医保影像云跨省秒调阅医院网络。此举旨在优化跨省异地就医服务,解决群众异地影像调阅难问题。 微新创想:截至当日,医保影像云索引已累计上传3.3亿例。这一庞大的数据量为全国范围内的医疗资源共享提供了坚实基础,也标志着我国在推进医疗信息化建设方面迈出了重要一步。 微新创想:该网络依托全国统一医保信息平台,实现了不...
19:35
微新创想:2026年2月9日,中国一汽宣布红旗HS6 PHEV以原厂素车状态,在-20℃以下极寒环境中完成1131.133公里无补能行驶,成功获得“低温环境下驾驶插混SUV零补能行驶最长距离”吉尼斯世界纪录。这一成绩标志着中国新能源汽车在极端气候条件下的实际表现得到了国际认可。 红旗HS6 PHEV是基于中国一汽自主研发的鸿鹄混动平台打造的全新车型。该平台集...
19:35
微新创想:日本相机影像产品工业协会(CIPA)于2026年2月公布了2025年的全球相机产销数据 数据显示紧凑型相机全年实际出货量达到244万台同比增长30%成为所有品类中增幅最高的产品类别 其出货金额同比大幅增长49%显示出市场对便携式影像设备的强劲需求 可更换镜头相机(ILC)出货量为700.2万台略高于市场预期 数码单反相机销量继续下滑同比下降31%反...
19:35
微新创想:2月9日,小米集团在香港联交所发布公告,宣布当日以5270万港元回购150万股B类普通股。此次回购发生在港股交易时段,平均价格约为35.13港元每股。公司表示,回购的股份将予以注销,此举旨在优化资本结构并提升股东回报。 微新创想:此次股份回购是小米自2025年起启动新一轮回购计划的一部分,显示出公司对自身长期价值的坚定信心。通过回购股票,小米不仅能...
19:35
微新创想:2026年2月9日,盟固利(301487.SZ)宣布投资9.29亿元建设年产3万吨锂离子电池正极材料项目。项目分两期:一期投资7.37亿元,建设周期21个月;二期投资1.92亿元,周期15个月,总工期36个月。选址及实施主体为公司自有基地,将生产0.5万吨高电压钴酸锂、1万吨NCA及1.5万吨超高镍三元材料。资金来源为自筹与募集资金,其中一期拟使用...
19:35
微新创想:2025年12月26日晚上辽宁沈阳的游客张女士遭遇了一起“航班取消改签退款”的电信诈骗案件。诈骗分子通过虚假信息诱导她下载非法App并获取其银行卡密码及验证码,导致43万元资金被转走。 警方在接到报警后迅速反应,仅用半小时就成功冻结了38.2万元的涉案资金。随后,警方连夜与海南相关涉事企业进行协调,最终在案发后的三小时内追回了全部被盗资金。 这一事...
19:05
微新创想:2月9日,全国全社会跨区域人员流动量预计达2.3亿人次,环比增长3.4%。数据显示,公路运输依然是人员流动的主要方式,预计公路人员流动量约为2.18亿人次。 交通运输部及综合运输春运工作专班发布相关提示,指出贵州、湖南、湖北等地的高海拔山区将在夜间出现冻雨天气。这种天气状况可能导致道路出现积雪和结冰现象,给出行带来较大安全隐患。 面对可能发生的恶劣...
19:05
微新创想:2026年2月9日,奥普特(688686.SH)发布公告,宣布拟向不特定对象发行可转债,计划募集资金总额不超过13.8亿元。此次融资将用于多个关键领域,包括工业3D视觉传感器及智能硬件的扩产、AI智能视觉解决方案系统的研发、工业级机器人核心零部件及视觉系统的研发与产业化,以及补充流动资金。通过这一系列举措,奥普特意在进一步巩固其在工业自动化领域的技...
19:05
微新创想:2026年2月9日,闰土股份(002440.SZ)发布公告称,受原料还原物价格上涨影响,公司分散染料价格近期每吨累计上调约5000元。这一调整主要是为了应对上游中间体成本的持续上升。自2026年1月下旬以来,还原物市场价格不断攀升,当前市场报价已达到约7万元/吨。 闰土股份的还原物年产能为8000吨,主要用于自身分散染料的生产。公司表示,此次调...