编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2025年11月23日

09:43
新东方创始人俞敏洪近日在南极旅游期间发布内部信庆祝公司32周年,却因信中涉及南极元素引发员工不满,引发舆论广泛关注。11月23日深夜,俞敏洪再发题为《让我们一起努力》的全员信,就此前争议进行诚恳道歉,并详细阐述了自己的行文初衷与工作理念。 俞敏洪首先就信中使用的南极描述和红色字体表达歉意。他解释称,在南极的写作环境确实融入了一些地域特色比喻,但绝非有意炫耀,...
09:43
11月22日最新消息,一则充满生活气息的分享在社交平台引发热议。有网友晒出一张创意照片:一床床被褥整齐地搭在撑开的伞上,在阳光下形成一片片色彩斑斓的"蘑菇云",画面既温馨又充满趣味。不少网友调侃称,晒被子似乎是中国孩子的"传统执念"。这一现象背后,其实蕴含着不少科学道理。 晒被子之所以被广泛推崇,主要是因为它能够有效抑制螨虫生长。干燥的环境能够大幅减少螨虫的...
09:35
2023年11月20日9时19分,备受瞩目的“新舟”60西南增雨机在西安阎良机场成功首飞,标志着我国人工影响天气领域迈入智能化新阶段。这架多用途作业飞机经过5小时23分钟的飞行测试,最终安全降落,正式开启科研试飞新篇章。作为一款专为人工影响天气任务设计的机型,“新舟”60西南增雨机融合了多项尖端技术,包括智能化作业方案生成系统、云层状态智能识别模块以及结冰预...
09:35
2025年11月20日,专注于皮肤健康与体重管理的消费医药公司蔓迪国际正式向香港交易所主板提交上市申请,华泰国际作为独家保荐人全程参与。作为脱发治疗领域的领军品牌,蔓迪®已成为该细分市场的代名词。据最新数据统计,2024年蔓迪国际旗下米诺地尔产品在中国零售市场的占有率高达71%,展现出强大的市场竞争力。 公司近年来业绩表现亮眼,2022年至2024年间,总收...
09:35
2025年11月23日,社交平台X(原推特)对用户个人信息页面进行了重要更新,正式上线“账号所在地”显示功能。这一新功能旨在为用户提供更透明的社交环境,但值得注意的是,该信息可能受到用户近期旅行记录或临时居住地变更的影响,因此存在一定的动态变化和不准确性。用户在使用时需结合实际情况进行判断。 与此同时,X平台于11月15日全新推出的私信功能Chat,正以其卓...
09:35
2025年11月,成都莱普科技股份有限公司正式向上海证券交易所科创板提交了IPO申请,并已获得受理,中信建投证券担任本次发行的保荐机构。从股权结构来看,公司实际控制人叶向明与毛冬通过东骏投资合计控制了66.94%的表决权,彰显其稳固的领导地位。值得注意的是,国家集成电路产业投资基金二期以7.66%的持股比例位列第一大外部股东,凸显了国家对该公司发展的高度认可...
09:35
2025年11月23日,陕西西安公安网络安全保卫部门正式对一家无人机技术公司启动立案侦查程序,起因是该企业自主研发的无人机管理平台遭遇网络攻击,导致部分敏感数据遭非法窃取。经公安机关深入调查发现,该平台存在明显的安全漏洞隐患,同时该公司在数据安全管理方面存在严重缺失:不仅未建立完善的数据安全管理制度,更未对员工开展必要的安全意识培训,缺乏应有的网络安全防护措...
09:35
2025年11月22日晚间,北汽集团正式对外公布一则重大法律成果——法院一审判决认定某知名汽车企业存在擅自使用“北汽”相关标识的不正当竞争行为。这一判决不仅维护了北汽集团的合法权益,更向市场传递了明确的法律信号。根据法院裁决,涉事企业被明确要求立即停止一切含有“北汽”字样的简称使用行为,并需通过公开登报的形式消除不良影响,以恢复市场秩序。更为关键的是,该企业...
09:02
2025年11月23日,雷神震撼亮相ACL北区总决赛现场,正式发布首款搭载国产核心的电竞主机——黑武士・猎刃 Pro,这一里程碑事件在国产电竞新品启动仪式上隆重揭晓。作为国产化电竞硬件领域的破冰之作,黑武士・猎刃 Pro不仅彰显了雷神的技术实力,更向全球电竞爱好者展示了国产硬件的无限潜力。 黑武士・猎刃 Pro的核心配置堪称顶级,搭载了由海光自主研发的新一代...
09:02
2025年11月23日至24日,一场强劲的冷空气自西向东席卷我国大部地区,北方局部地区降温幅度惊人,超过10℃。甘肃、青海北部、内蒙古及东北地区将迎来降雪天气,为大地披上银装。与此同时,中东部其余地区则以晴朗为主,阳光明媚。然而,这并非冷空气的最后一次造访。25日至27日及29日前后,还将有两股冷空气陆续登场,导致气温频繁波动,给我国天气格局带来更多变数。此...
09:02
2025年11月18日,中国科学院大学正式发布官方通知,宣布将旗下航空宇航学院更名为星际航行学院,标志着中国航天教育体系迈入全新发展阶段。校方此举旨在强化前沿航天科技人才培养,提升国际学术影响力。11月21日,校方相关负责人向媒体明确证实更名决定属实,但出于保密考虑,尚未公布学院正式挂牌的具体时间节点。值得注意的是,截至目前,学院官方网站及相关教学资料尚未同...
08:32
2025年11月21日,中国汽车制造业迎来重大突破,上汽集团正式宣布其与清陶动力合作的全固态电池产线在上海安亭成功贯通。这一里程碑意义的进展预示着新能源汽车技术将迎来革命性变革。据悉,该产线预计在年底前完成首批样件下线,为2026年的样车测试奠定坚实基础,并计划于2027年实现"光启电池"的量产交付,正式推向市场。 该固态电池技术展现出卓越的性能指标:能量密...