编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2025年12月15日

14:02
2025年12月15日,贝耐特光学科技正式宣布成功完成数千万元人民币规模的A++轮独家融资,由知名投资机构安芯投资独家领投。此次融资不仅彰显了资本市场对贝耐特光学科技创新实力的高度认可,更将为其未来的技术突破与产业升级注入强劲动力。据悉,所获资金将全面投向三大核心领域:一是持续深耕LCoS(硅基液晶)空间光调制器及光谱分析模块的核心技术研发,力求在显示技术领...
14:02
2025年12月13日,中国汽车品牌奇瑞与法国西部汽车俱乐部(ACO)在马来西亚正式签署战略合作协议,标志着奇瑞成为首个正式进军勒芒24小时耐力赛的中国车企。此次合作中,奇瑞旗下高端品牌星途将肩负重任,代表中国汽车品牌开启参与世界顶级耐力赛的新篇章。勒芒赛事由ACO主办,每年6月在法国举行,是全球最著名、最具挑战性的三大汽车赛事之一,以其严苛的赛道环境和卓越...
14:02
2025年12月15日,广西数据集团有限公司正式宣告成立,标志着广西在数字经济领域迈出关键性步伐。该公司法定代表人为周飞,注册资本高达10亿元人民币,彰显了其雄厚的资本实力和发展潜力。作为一家具有地方战略意义的企业实体,广西数据集团有限公司的注册地位于广西壮族自治区,这一地理位置优势为其未来的业务拓展奠定了坚实基础。 在股权结构方面,该公司由多家实力雄厚的机...
14:02
2025年12月15日,贵州茅台股价迎来第四个交易日连续上涨,盘中涨幅一度突破1%。这一积极表现背后,市场传闻公司即将推出"控量"政策成为焦点。针对外界关注,茅台集团相关工作人员明确表示,该政策举措目前仍处于研究阶段,具体的实施方案预计将在12月28日举办的渠道商联谊会上正式公布。 据悉,茅台产品投放始终坚持以终端动销情况为依据,实施精准投放策略。工作人...
14:02
2025年12月15日,中国新能源汽车领域迎来重大合作里程碑。首驱科技与广西柳州市政府正式签署战略协议,宣布将在柳东新区核心区域投资15.21亿元人民币,建设华南地区规模领先的总部基地及智能电动车生产制造中心。这一项目承载着打造区域新能源汽车产业新引擎的宏伟目标,规划年产能高达150万台,将全面聚焦车规级智能两轮电动车的研发与量产,涵盖从核心技术突破到智能化...
14:01
2025年12月,中共西藏自治区委员会正式发布了《“十五五”时期国民经济和社会发展规划建议》,为西藏未来的发展擘画了宏伟蓝图。这份重要文件明确提出,将着力优化开放格局,构建具有西藏特色的对外开放新体系。该体系以拉萨为核心中心,以东部和西部为两翼支撑,同时联动多个口岸,形成全方位、多层次、立体化的开放格局。 作为“一带一路”倡议的重要参与者,西藏将深度融入西部...
14:01
在人工智能浪潮席卷创意产业的当下,一款名为《Codex Mortis》的类《吸血鬼幸存者》游戏横空出世,以惊人的方式宣告自己的存在——从代码到美术,再到音乐,全部由人工智能驱动完成。开发者 Grolaf(又名 Crunchfest)自豪地宣称,这款仅用三个月时间就诞生的独立游戏,是"真正意义上100% AI 生成的游戏"之一。据开发者自述,整个开发过程几乎完...
14:00
谷歌研究院、谷歌 DeepMind 与麻省理工学院近日联合发布的一项突破性研究,颠覆了传统观点中“更多智能体意味着更好结果”的认知。研究团队通过精心设计的180项控制实验,深入探究了多智能体系统在不同任务场景下的实际表现,结果令人惊讶:系统性能波动极大,有的任务效率提升高达81%,而另一些任务却出现了高达70%的性能下降。 研究表明,任务的类型对多智能体系统...
14:00
12月13日,在第二届CCF中国数据大会上,蚂蚁数科重磅宣布将全面开源其核心数据智能体技术Agentar SQL的全套资源,包括学术论文、源代码、预训练模型以及详细的使用指南。这一创新举措旨在推动企业数字化转型,使非专业人员也能通过自然语言轻松进行商业数据查询与分析,构建更精准高效的智能数据分析基座。 作为开源计划的首步,蚂蚁数科率先发布了实时文本转化结构化...
13:38
近日,美国佐治亚州引发社会广泛关注的一则新闻,主角是体重高达276斤的死刑犯斯泰西•汉弗莱斯。这位52岁的囚犯因在2003年犯下持枪抢劫并残忍杀害两名女性的重罪,被依法判处死刑。在行刑前,汉弗莱斯提出了一份令人瞠目结舌的“最后餐食”请求,这份被批准的菜单堪称一场“奢华盛宴”,迅速在网络和社交媒体上掀起轩然大波。 据悉,按照美国仍保留死刑执行州中的惯例,囚犯在...
13:31
2025年12月15日,一项由中国科学院青藏高原研究所牵头、联合全球数十家顶尖科研机构共同完成的突破性研究,成功揭示了大麦种子休眠的核心遗传机制。这项发表在《科学》期刊上的重要成果,通过深入分析大麦基因组,精准定位了调控种子休眠的关键基因位点,为培育适应极端气候的耐逆作物品种提供了全新的科学依据。 该研究团队利用先进的基因组测序和生物信息学技术,系统解析了大...
13:31
2025年12月15日,派杰投资机构正式宣布将可口可乐公司股票的目标价从81美元上调至87美元,这一调整幅度显著,充分体现了市场分析师对可口可乐未来业绩的乐观预期。据派杰投资发布的最新研究报告显示,此次目标价上调主要基于对可口可乐公司稳健经营策略和持续增长潜力的深度评估。 可口可乐在全球饮料市场的长期竞争优势和稳定的市场份额是支撑此次目标价上调的核心逻辑...