编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2026年02月09日

18:04
微新创想:2026年2月9日,飞龙股份(SZ002536)发布公告,称副总经理焦雷因个人身体原因辞去其职务。焦雷辞职后将不再担任公司及下属子公司任何职位。焦雷自2007年7月起担任副总经理一职,在任职期间曾担任技术员、销售经理等多个岗位,积累了丰富的管理与技术经验。 焦雷出生于1970年9月,拥有大专学历。2024年,其税前报酬为39.93万元。飞龙股份成立...
18:04
微新创想:2026年2月9日,丹麦马士基集团与中国新时代造船有限公司签署协议,订购八艘18600标箱(TEU)大型集装箱船。这一订单标志着双方在航运与造船领域的深入合作,为全球物流运输注入新的活力。 船舶的长度达到366米,宽度为58.6米,相较于当前最大400米级的船型更为紧凑。这种设计不仅降低了建造成本,还提升了船舶在不同港口的适应能力。许多港口由于基础...
18:04
微新创想:2026年2月9日盘前,美光科技股价下跌1.6%。据悉,英伟达计划在新一代Rubin架构GPU的首年量产中不采用美光的HBM4内存。此事发生于美国,涉及两家全球主要半导体企业。英伟达此举或因技术验证进度、产能分配或供应商策略调整所致。美光尚未就此发表官方回应。Rubin架构预计将于2026年下半年进入大规模量产阶段,HBM4作为关键高性能内存,其供...
18:04
微新创想:截至2026年2月9日,海底捞全国除夕当日用餐预订超过5万桌,超过1000家门店将照常营业。这一数据反映出消费者对海底捞品牌的持续认可与信赖,尤其是在春节这一传统重要节日,海底捞依然保持着强劲的市场需求。 同日,其上海首家独立运营的“糖水铺”店中店实现日均订单突破100单。这一新尝试不仅丰富了海底捞的餐饮产品线,也为顾客提供了更多元化的消费体验。糖...
18:04
微新创想:2026年2月9日,葵花药业(SZ002737)发布公告,宣布关一因个人原因辞去总经理职务,但仍继续担任公司董事及控股子公司相关职务。同一天,董事会正式聘任周建忠为新的总经理。周建忠在医药行业拥有丰富的管理经验,曾任职于多家知名医药企业,目前担任葵花集团董事长等重要职位,并持有公司股份500股。 此次人事变动引发了市场对葵花药业未来发展方向的关注。...
18:04
微新创想:2026年2月9日,江苏有线(600959.SH)发布公告,宣布计划联合江苏省文化科技控股集团等7家非关联企业,在江苏共同发起设立一家科技合资公司。该合作将聚焦于智算设备的研发与运营,标志着公司在人工智能与信息技术领域迈出重要一步。 此次设立的合资公司注册资本为1.5亿元,江苏有线认缴出资3000万元,占股比例为20%。公司希望通过此次合作,进一步...
18:04
微新创想:2026年2月,深圳镓创未来科技有限公司宣布完成天使+轮融资,投资方为蓝海华腾。此次融资标志着公司在第四代超宽禁带半导体材料领域迈出了重要一步。公司成立于2025年7月,专注于氧化镓外延片的研发与产业化,致力于推动新一代半导体材料的技术突破与市场应用。 微新创想:氧化镓作为第四代超宽禁带半导体材料,具有高击穿电场、高热导率和高饱和电子漂移速度等优异...
18:04
微新创想:2026年2月,杭州泽为生物科技有限公司宣布完成天使轮融资,由浙大启真创投独家投资。此次融资标志着公司在生物材料领域迈出了重要的一步,为后续发展提供了坚实的资金支持。 该公司成立于近年,专注于超生物相容性材料——两性离子聚合物的研发、生产与销售。两性离子聚合物因其独特的化学结构和优异的生物相容性,被广泛认为是新一代生物医用材料的重要方向。 微新创想...
18:04
微新创想:2026年2月,武汉-based新材料技术企业茗朗科技完成天使轮融资 投资方为湖北集成电路产业投资基金与华工科技投资 公司主营金属基及陶瓷基复合材料、石墨烯、高性能纤维、新型金属功能材料等研发 本轮融资将用于核心技术攻关、中试产线建设及团队扩充 茗朗科技成立于2023年 致力于填补高端功能材料领域国产化空白
18:04
微新创想:2026年2月9日,中电科投资控股有限公司完成工商变更,注册资本由50亿元增至80亿元,增幅达到60%。此次调整标志着公司在资本实力和战略布局上的重要升级。 该公司成立于2014年4月,注册地为北京,法定代表人为靳彦彬。作为中国电子科技集团有限公司的全资控股企业,中电科投资控股有限公司一直致力于推动科技创新和产业发展。 其主营业务涵盖投资管理、股权...
18:04
微新创想:2026年2月9日,顺丰正式推出覆盖全国一线快递员的“春季增收”专项计划,首期投入2亿元,为期3个月。该计划通过单票计提补贴的形式,直接发放给快递员,预计每位员工每月收入将增加约500元。这是行业内首个针对全国快递员的专项增收计划,标志着顺丰在员工福利和激励机制上的重要突破。 此次专项计划的推出,旨在构建一个长效的激励体系,不仅提升快递员的收入水平...
17:47
微新创想:近日,京东自有品牌京造推出一款Au99.99黄金手机壳产品,迅速引发网络热议。这款手机壳不仅外观奢华,还具备独特的投资属性,起售价高达11299元。其特别之处在于内置可拆卸的投资金片,让用户在日常使用中也能感受到黄金的价值。 微新创想:为了回馈消费者,京东京造自营投资金旗舰店今日推出限时促销活动。活动时间为2月9日至2月16日,用户在活动期间购买指...