编者按:本文来自微信公众号量子位(ID:QbitAI),作者:克雷西,微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱,其详细测评数据已成功登上Nature期刊,让我们深入探索这项突破性研究的核心细节。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图

研究团队首先研发了Flan-PaLM模型,并在此基础上通过先进的提示策略等手段精心优化,最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试(USMLE)时取得了67.6%的优异成绩,较此前最佳模型提升了整整17个百分点,展现了强大的医学知识储备能力。与Flan-PaLM相比,Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃,而后者则暴露出明显的不足。经过专业临床医生的严格评估,Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图1

除了Med-PaLM模型本身,研究团队还创新性地推出了自建的医疗模型测评数据集,为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示,自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文,现在终于可以自豪地回答是了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图2

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集,从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此,因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示,Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%,这一结果更具参考价值。而在更为专业的MMLU数据集中,包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域,Flan-PaLM的准确度超越了所有已知模型,展现了无与伦比的医学知识掌握能力。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图3

理论能力测评之后,研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。HealthSearchQA是谷歌自建的,包含了3000多个问题,既涵盖学术问题,也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图4

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。但与真人相比,Med-PaLM输出的错误或不准确信息比例仍然偏高,在信息缺失方面差距则相对较小。不过经过专家评估,Med-PaLM造成伤害的可能性与严重性并不大于人类,甚至在出现偏见的概率上还低于人类。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图5

从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型,获得专业人士的认可是远远不够的。因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示,在答案匹配度上,Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题,80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图6

综合以上测试结果可以看出,Med-PaLM与真人之间还存在一定的差距,但已是目前最好的医疗大模型。论文地址:https://www.nature.com/articles/s41586-023-06291-2本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图7

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图8

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图9

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图10

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图11

谷歌医疗大模型登Nature:准确率媲美人类医生执照考试成绩提升17%插图12

最新快讯

2025年08月04日

13:28
近日,一位来自重庆医科大学的年轻女孩在网上分享的青海旅行照片意外引爆了网络。这位24岁的女生原本只是想记录下旅途中的美好瞬间,却因一张张照片中清秀的面容与知名艺人大S惊人相似,迅速成为了网络焦点。无数网友惊叹于这种"平行时空的相遇",纷纷留言表示"这简直是大S的另一个版本"。面对突如其来的流量和热议,这位女孩于7月31日在社交媒体上发布了正式回应。 她首先向...
13:28
声明:本文源自微信公众号新播场,作者场妺,经站长之家授权转载发布。平台严控低俗内容,禁止大额打赏诱导,抖音与视频号团播新规全面落地。近期,两大社交平台密集发布整顿措施,对违规团播行为进行公示,并明确表示将根据违规程度实施阶梯式处罚,包括警告、限流、封禁乃至账号清退。团播内容精品化、专业化趋势不可逆转,这背后释放出平台规范发展的强烈信号。在内容质量要求持续提升...
13:28
2025年8月4日,内蒙古自治区财政厅传来喜讯,正式下达中央财政专项资金高达8亿元,专项用于推动城乡交通体系的现代化建设。这笔巨额资金将重点投向农村客运补贴、巡游出租车运营支持以及新能源汽车推广应用等多个关键领域,旨在全面提升区域交通服务水平,促进城乡经济协调发展。 为确保补贴资金的高效精准发放,自治区财政部门创新实施"一卡通"直补模式,部分补贴款项已率先通...
13:28
8月4日,沪深两市成交额再度突破万亿大关,连续第48个交易日站稳这一重要关口,彰显市场活跃态势。然而与前一交易日相比,当日成交额出现明显萎缩,大幅缩量超过800亿元,显示出市场情绪有所波动。据财联社盯盘数据精准测算,预计当日全天成交总额将收于1.5万亿元下方,进一步印证了市场成交量回落的趋势。这一数据变化不仅反映了投资者交易行为的调整,也折射出当前市场在高位...
13:28
2025年8月4日,知名互联网公司搜狐正式发布了其2025年第二季度的财务报告,展现了公司在当前市场环境下的稳健发展态势。本季度,搜狐总收入达到1.26亿美元,其中营销服务板块贡献收入1600万美元,在线游戏业务更是斩获1.06亿美元的亮眼成绩。在财务表现方面,非美国通用会计准则下净亏损收窄至2000万美元,相较于去年同期的3400万美元净亏损,降幅超过40...
13:28
2025年8月3日凌晨8时至4日凌晨8时,广西壮族自治区多个地区遭遇强降雨袭击,柳州、梧州、河池、桂林等地普遍出现中到大雨,局部区域更是降下暴雨乃至大暴雨,雨势之猛、范围之广,引发严重水情。这场强降雨导致桂江重要支流龙江以及东安江支流六堡河水位暴涨,分别超过警戒线0.70至1.40米,形成洪水威胁。据气象部门最新预测,未来24小时内,贺江、桂江、蒙江等主要水...
13:28
2025年8月3日,日本理化学研究所环境资源科学研究中心发布了一项突破性研究成果,为应对全球气候变暖带来的农业挑战提供了全新解决方案。该研究证实,通过向植物根部注入乙醇溶液,并辅以叶片喷洒方式,能够显著提升植物在极端高温环境下的生长稳定性。这一创新性方法由日本顶尖科研团队主导开发,其核心目标在于缓解高温天气对农作物产量的负面影响,保障全球粮食安全。 研究人员...
13:28
8月4日凌晨,随着第一架货机腾空而起,我国首条直飞乌兹别克斯坦乌尔根奇的国际货运航线正式宣告开通这一重要里程碑。作为丝绸之路经济带核心区的重要节点,乌鲁木齐天山国际机场的货运网络建设再添新翼,进一步提升了我国与中亚地区的物流连接效率。 此次开通的乌尔根奇货运航线是乌鲁木齐机场货运体系的又一重要组成部分。目前,乌鲁木齐天山国际机场已构建起覆盖20个国家、共计3...
13:28
8月4日凌晨,一则关于修改手机日期可找回微信过期文件的说法在网络上引发热议。针对这一传言,微信团队员工客村小蒋及时作出澄清,明确表示该说法"假得有点离谱"。他详细解释了微信的文件管理机制,强调平台并非依据用户手机本地时间进行校验,且一旦文件过期便无法恢复。小蒋特别指出,微信聊天记录中的图片、视频和文件默认保存期限为14天,而非传言中的7天,这可能是导致博主误...
12:52
随着《凡人修仙传》《利剑·玫瑰》强势开播,《定风波》也正式定档,预计将接棒《朝雪录》,长剧市场新一轮的激烈交锋正式拉开帷幕。2025年暑期档已进入下半场,尽管六七月间《以法之名》《朝雪录》《临江仙》等剧集诞生了平台破万剧,司法刑侦剧也实现了多部连播,打破了以往古装剧独大的局面,但客观而言,今年的暑期档整体热度并不算高。以目前多方数据平台认证的暑期档头名选手《...
12:52
声明:本文源自微信公众号《游戏价值论》,作者李亚倢,经站长之家授权转载发布。2025年7月31日,中国国际数字娱乐产业大会(CDEC)在上海浦东嘉里酒店隆重召开,正式发布了《2025年1-6月中国游戏产业报告》。数据显示,2025年上半年国内游戏市场实际销售收入达1680亿元,同比增长14.08%,这一增速自2020年以来首次重回两位数。与此同时,自研游戏海...
12:52
2025年8月4日,中电控股正式发布其上半年财务报告,数据显示公司整体营收达到428.5亿港元,净利润更是高达56.2亿港元,展现出强劲的盈利能力。这一亮眼业绩充分印证了中电控股在电力领域的卓越运营水平与市场竞争力。为回馈股东,公司同时宣布将派发第二期每股中期股息,金额为0.63港元,彰显了其稳健的财务策略与对股东价值的持续关注。此次财报发布不仅体现了公司在...