编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2025年08月04日

11:21
近日,埃隆·马斯克旗下的人工智能公司 xAI 突然提交了“Macrohard”商标注册申请,这一举动迅速引发广泛关注,被外界解读为对科技巨头微软(Microsoft)的一次大胆戏仿。该商标申请明确涵盖了编程与图像/视频生成 AI 代理的核心业务领域,与马斯克近期在社交媒体上的暗示高度吻合,预示着 xAI 可能即将成立一家专注于该领域的全新子公司。 从线上暗示...
11:21
谷歌DeepMind近日震撼宣布,其尖端AI模型Gemini2.5Deep Think已正式向Google AI Ultra订阅用户开放使用。这款备受瞩目的模型不仅在2025年国际数学奥林匹克(IMO)竞赛中勇夺金牌,更凭借其革命性的"并行思考"机制和强化学习技术,在多个领域展现出令人惊叹的表现,彻底重新定义了AI推理能力的边界。 Gemini2.5Deep...
11:21
近日知名科技媒体The Information发布深度报道揭露了OpenAI下一代大语言模型GPT-5的技术突破开发困境及内部管理动态 GPT-5:从“智能飞跃”到“实用为王” 最新爆料显示GPT-5的开发重心已从追求智能的“量子飞跃”转向实用性与用户体验的全面提升相比前代模型GPT-5在以下方面实现显著突破: 1. 代码生成能力升级:GPT-5...
11:21
谷歌 AI 团队近日重磅推出 MLE-STAR(机器学习工程通过搜索和针对性优化)系统,这是一款突破性的代理系统,致力于自动化并优化复杂的机器学习流程设计。MLE-STAR 通过整合大规模网络搜索、精准代码优化以及强大的检查模块,在多个机器学习工程任务上取得了令人瞩目的成就,其表现不仅超越了传统的自主机器学习代理,更在人类基线方法之上实现了飞跃。 尽管大型语...
11:21
近日,腾讯混元基础模型团队在图像生成领域再创佳绩,正式发布了革命性的新框架——MixGRPO。这一突破性方案不仅在训练效率上实现了惊人飞跃,将时间缩短了近50%,更在性能表现上达到了新的高度。令人瞩目的是,团队还推出了名为MixGRPO-Flash的优化版本,将训练时间进一步压缩了71%。这一系列成就的取得,源于他们将随机微分方程(SDE)与常微分方程(OD...
11:21
8月4日,杭州高新区(滨江)隆重举行人工智能产业创新高地建设推进大会,正式宣告杭州具身智能应用中试基地投入运营。这场备受瞩目的行业盛会不仅标志着杭州在人工智能领域迈出关键性步伐,更彰显了其打造全球领先AI生态的战略决心。大会现场,机器人领军企业宇树科技CEO王兴兴被授予首席科学家聘书,这一重要任命凸显了杭州对具身智能技术研发的高度重视,王兴兴将全面负责基地的...
11:20
2025年8月4日,达力普控股(01921)在开盘后股价表现强劲,涨幅达到2.61%,报收于5.50港元。这一积极的市场反应,与公司最新发布的半年度业绩报告密切相关。报告显示,截至2025年6月30日,达力普控股实现了净亏损同比大幅收窄超过70%的显著成果。这一优异的业绩表现,主要归功于公司全资子公司达力普专用管有限公司在产品结构上的战略性调整,通过优化运营...
11:20
2025年8月4日,青岛银行股价迎来强劲上涨,早盘涨幅高达3.49%,报收4.15港元。这一积极表现与其近日发布的2025年半年度业绩快报密切相关。报告显示,青岛银行在经营业绩上取得了显著突破,营业收入达到76.62亿元,同比增长7.50%,展现出稳健的增长势头。尤为亮眼的是,归属于母公司股东的净利润高达30.65亿元,同比增长16.05%,这一数据不仅反映...
11:20
2025年8月4日,小米科技正式宣布发布并全量开源其最新研发的多模态大模型——MiDashengLM-7B。这一突破性成果在22个权威公开评测集上实现了全面超越,不仅刷新了多模态大模型的最佳性能记录(SOTA),更在声音理解领域展现出卓越表现,成为业界标杆。据官方数据显示,该模型在单样本推理任务中,首Token延迟(TTFT)仅为当前业界先进模型的四分之一,...
11:20
2025年7月25日,上海成功举办了备受瞩目的“2025中国科创夏季投资峰会”。在这场汇聚行业精英的盛会中,滴灌通集团创始人李小加先生提出了创新性的CFO(现金流权)模式,旨在为中小科创企业提供强有力的支持。这一模式的核心在于通过现金流而非传统股权投资,帮助中小企业解决融资难题,从而有效降低早期项目的失败风险。 李小加先生在峰会上指出,当前的传统股权投资领域...
11:20
2025年8月4日,国际知名投行花旗集团正式宣布对其黄金价格预测进行重大调整,将未来0-3个月的黄金价格预期从每盎司3300美元上调至3500美元,同时将3个月黄金价格预期区间进一步扩大为3300-3600美元。这一最新预测不仅体现了市场对黄金价值的重新评估,更反映出全球范围内对黄金需求预期的显著增强。据花旗集团分析师团队表示,此次预测上调主要基于以下几个关...
11:20
近日,越南电动车领军企业VinFast正式宣布进军印度市场的重要战略布局,计划在印度本土兴建一座现代化新能源汽车生产基地。该项目预计年产能将达5万辆,涵盖纯电动及混合动力车型,旨在快速响应印度市场对绿色出行解决方案的迫切需求。这一举措不仅标志着VinFast在亚洲市场版图的显著扩张,更凸显了其全球化战略的坚定步伐。 作为全球新能源汽车产业的积极践行者,Vin...