
在现代医疗体系中,电子病历(EHR)作为核心数据形式,承载着从诊断到治疗的全流程关键信息,是医疗决策的重要支撑,同时也是推动医疗人工智能发展的关键驱动力。近期,南洋理工大学的研究团队重磅推出首个全面评测大型语言模型(LLM)处理电子病历能力的基准——EHRStruct,这一突破性成果标志着医疗AI研究领域迈出了重要一步。
EHRStruct基准涵盖了11项核心任务,共计2200个样本,其任务设计深度结合了临床场景、认知层级及功能类别,构建了一套严谨科学的评测框架。研究团队发现,通用大模型在处理结构化电子病历时表现出色,其性能甚至超越了专门针对医学领域设计的模型。此外,研究还揭示数据驱动的任务性能更强,输入格式和微调方法对模型表现具有显著影响。
在评测过程中,研究团队对20个主流LLM和11种增强方法进行了系统性比较。令人惊喜的是,结合EHRMaster框架和Gemini模型的组合方案,LLM在处理结构化EHR时的性能实现了显著突破,甚至超越了当前最先进的模型。这一重要研究成果已被AAAi2026会议录用,预计将在未来学术交流中引发广泛关注。
为推动该领域持续发展,研究团队特别推出了”EHRStruct2026—LLM结构化电子病历挑战赛”,旨在为研究人员提供一个统一、可比较的评测平台,进一步促进对LLM在结构化电子病历处理能力的深入研究。EHRStruct的建立过程分为四个关键阶段:任务合成、任务体系构建、任务样本抽取和评测流程搭建。这一过程由医学专家和计算机科学家共同协作完成,确保了评测的临床相关性和可重复性,为后续研究提供了坚实的数据支持。
这一重要研究的发布,不仅为医疗AI的进步提供了新的工具和方法,也为今后的临床决策与数据分析提供了更为可靠的支持。我们期待更多医疗AI应用在实际工作中落地,最终实现更高效、更精准的医疗服务,为患者带来更好的健康体验。
