谷歌医疗大模型登Nature：准确率媲美人类医生执照考试成绩提升17%

2023-07-14 08:25:47 互联网 72 次阅读

编者按：本文来自微信公众号量子位（ID:QbitAI），作者：克雷西，微新创想经授权发布。谷歌医疗大模型Med-PaLM终于揭开神秘面纱，其详细测评数据已成功登上Nature期刊，让我们深入探索这项突破性研究的核心细节。

研究团队首先研发了Flan-PaLM模型，并在此基础上通过先进的提示策略等手段精心优化，最终诞生了Med-PaLM这一医疗领域的创新之作。Flan-PaLM在挑战美国医学执照考试（USMLE）时取得了67.6%的优异成绩，较此前最佳模型提升了整整17个百分点，展现了强大的医学知识储备能力。与Flan-PaLM相比，Med-PaLM在实际医疗问题解答上的表现更是实现了质的飞跃，而后者则暴露出明显的不足。经过专业临床医生的严格评估，Med-PaLM对实际医疗问题的回答准确率已与真人医生不相上下。

除了Med-PaLM模型本身，研究团队还创新性地推出了自建的医疗模型测评数据集，为医疗AI的发展提供了宝贵的基准。团队成员Jason Wei在社交媒体上激动表示，自己89岁的奶奶经常问他有没有发表在Science或Nature上的论文，现在终于可以自豪地回答是了。

多维度测试数据共同验证Med-PaLM的卓越性能研究团队一共使用了七套测试数据集，从多个维度对Med-PaLM的表现进行了全面测评。首先是准确性测试。由于Med-PaLM相较于其前体Flan-PaLM的主要改进不在于此，因此测评阶段以Flan-PaLM作为测试对象。这一环节共使用了包括由USMLE题目构成的MedQA在内的多个数据集。结果显示，Flan-PaLM在两个数据集上的表现较此前最佳产品均有显著提升。针对PubMedQA数据集，Flan-PaLM的成绩虽然只提高了0.8%，但真人在该数据集中取得的成绩也只有78%，这一结果更具参考价值。而在更为专业的MMLU数据集中，包含解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等多个临床知识领域，Flan-PaLM的准确度超越了所有已知模型，展现了无与伦比的医学知识掌握能力。

理论能力测评之后，研究团队将目光转向实战应用。Med-PaLM本体和前体Flan-PaLM均被纳入测试范围。研究团队从另外三个数据集中共选择了140个问题（HealthSearchQA中100个，另外两种各20个）。HealthSearchQA是谷歌自建的，包含了3000多个问题，既涵盖学术问题，也包括患者在就医时可能会向医生提出的疑问。模型的表现由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面，Med-PaLM的结果具有92.6%的一致性，远高于其前体，与真人医生相近。但与真人相比，Med-PaLM输出的错误或不准确信息比例仍然偏高，在信息缺失方面差距则相对较小。不过经过专家评估，Med-PaLM造成伤害的可能性与严重性并不大于人类，甚至在出现偏见的概率上还低于人类。

从模型能力角度看，Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。作为一款面向不特定人群的语言模型，获得专业人士的认可是远远不够的。因此，研究团队还邀请了非专业人士对Med-PaLM进行评价。评价标准包括「是不是所答所问」和「有没有帮助」两条。结果显示，在答案匹配度上，Med-PaLM和真人差了1.5%。而对于「有没有帮助」这个问题，80.3%的人认为Med-PaLM是「有用」的。虽然这个数字与真人存在差距，但如果分别加上认为「比较有用」的人，区别就没有那么明显了。

综合以上测试结果可以看出，Med-PaLM与真人之间还存在一定的差距，但已是目前最好的医疗大模型。论文地址：https://www.nature.com/articles/s41586-023-06291-2本文（含图片）为合作媒体授权微新创想转载，不代表微新创想立场，转载请联系原作者。如有任何疑问，请联系http://www.idea2003.com/。