编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2025年10月03日

00:03
摩根士丹利最新发布的权威报告揭示了一个令人振奋的市场信号:苹果iPhone 17及Pro系列的需求表现远超预期,供应链数据也呈现出强劲的出货态势。分析师Erik Woodring基于详实的Apple Store发货周期追踪和供应链反馈指出,iPhone 17、17 Pro和17 Pro Max在初期市场反响热烈,其强劲的需求势头已促使苹果公司调整生产计划,预...

2025年10月02日

23:30
据游戏媒体Insider Gaming独家披露的内部文件显示,索尼互娱正酝酿一项重大战略调整,计划逐步缩减PS4游戏机的部分在线服务功能。文件内容揭示,自2026年春季起,所有新提交的PS4游戏将不再支持包括活动流Web API、用户存储、共享媒体在内的六项旧版PSN功能。这一决策的核心目标是为不同世代的主机用户构建更为统一的服务平台,从而优化整体用户体验。...
23:00
2025年10月2日,全球外卖市场迎来重磅消息美国科技巨头DoorDash正式宣布完成对英国头部外卖平台Deliveroo的收购这一交易在伦敦证券交易所完成,总金额高达数十亿美元,堪称行业并购史上的里程碑事件。作为全球最大的外卖服务平台,DoorDash通过此次战略性收购,不仅将业务版图拓展至欧洲核心市场,更在关键区域实现了市场份额的显著提升。值得注意的是,...
23:00
截至2025年10月2日,国庆档期累计票房(含预售)已强势突破7亿元大关,这一亮眼成绩不仅彰显了观众的观影热情,更凸显了电影市场的蓬勃活力。今年国庆档期从10月1日持续至10月8日,期间多部备受期待的新片集中上映,引发了观影热潮,各大影院场场爆满,座无虚席。这一票房佳绩充分反映了观众对优质内容的强烈渴求,也标志着电影市场迈入了一个重要增长节点,预示着未来电影...
23:00
10月2日,正值国庆假期第二天,全国道路交通流量虽较首日有所回落,但整体仍处于高位运行状态。特别是长三角、珠三角等经济发达区域,路网压力持续增大,部分城市出城通道、城郊路段以及热门旅游景区周边道路出现明显拥堵排队现象,严重影响出行效率。针对当前交通态势,公安部交通管理局已紧急部署专项疏导方案,通过增派警力、优化信号灯配时、实时发布路况信息等措施,全力保障群众...
23:00
10月2日,广东省迎来旅游小高峰,全省4A级及以上景区共接待游客461.5万人次,展现出强劲的旅游市场活力。当日,广州长隆、深圳欢乐谷、清远英西峰林等热门景区客流集中,各地文旅部门提前部署,通过增派安保力量、优化交通疏导、增设应急服务点等措施,全力保障游客游览体验与安全。这一数据不仅印证了民众出行需求的持续释放,更凸显了文旅市场强劲复苏的积极态势,为全年旅游...
23:00
苹果iPad用户们,一个令人振奋的消息即将改变您的创作体验——Affinity 2系列图像编辑工具今日正式开启限时免费活动!这款备受业界赞誉的专业级应用套件,包含三款核心工具,现可通过内购方式永久免费获取授权,让您彻底摆脱订阅束缚,畅享无限创作可能。 Affinity Photo 2堪称移动端Photoshop的完美替代品,它不仅继承了桌面级照片编辑的强大功...
23:00
最新消息显示,三星即将推出的Galaxy S26 Ultra将搭载一项突破性的隐私保护功能,该功能能够在用户进入电梯、公交车、地铁等公共场合时自动激活,有效防止屏幕内容被窥视,为用户隐私提供全方位守护。这一创新功能的核心亮点在于其智能检测机制,用户可以根据实际需求调整检测强度,同时支持自定义排除项,例如锁屏验证方式、特定图片、通知内容或画中画窗口,确保在保护...
23:00
宾利正式官宣旗下顶级双门跑车欧陆GT Supersport将强势回归,为所有极致性能追求者献上旗舰级驾驶盛宴。这一标志性车型曾因品牌战略转向插电混动技术而暂时搁置,但面对全球车迷对纯粹机械性能的执着热爱,宾利最终决定重启这一传奇项目。新车由宾利摩斯港(Motorsport)部门倾力打造,通过全面优化底盘结构、悬挂系统与制动性能,更配备主动式扰流板与精密进气设...
23:00
2025年10月2日,迪士尼集团正式宣布一项具有里程碑意义的战略决策——Hulu将全面接替Star,成为Disney+平台的全球综合娱乐品牌。这一重大调整不仅标志着迪士尼在全球流媒体市场版图的一次深刻变革,更体现了其统一内容品牌标识、优化用户体验的长期愿景。据悉,此前作为迪士尼国际内容品牌的主力军Star,主要聚焦于面向成年观众的高质量影视作品。然而随着Hu...
21:58
微新创想10月2日讯 特斯拉近日发布了2025年第三季度的交付报告,最终交付量高达497,099辆,这一数字远超市场此前预测的439,612辆,展现出强劲的市场表现。从车型分布来看,Model 3和Model Y作为特斯拉的核心产品,继续引领交付量,第三季度累计交付481,166辆,占总交付量的96.8%。其中Model 3/Y的产量达到435,826辆,显...
21:58
10月2日,一则令人意想不到的新闻在浙江杭州引发广泛关注:一只体重高达128斤的金毛犬"圆圆"在遭遇车祸时,竟奇迹般毫发无损。这场意外中,"圆圆"的脂肪层发挥了惊人的保护作用,这一奇特现象迅速成为网络热议焦点。 监控视频记录了事发经过:当时"圆圆"正在马路中间休息,由于恰好处于驾驶员的视野盲区,一辆黑色日产轩逸在倒车时车轮不慎压在了它身上。附近邻居听到狗狗的...