国际科研团队通过严谨的实验,利用真实的手术录像对谷歌视频生成模型Veo-3进行了专项测试。在权威的SurgVeo基准评估体系中,该模型生成的腹腔与脑部手术视频虽然具备一定的视觉震撼力,但在医学逻辑性评分上均低于1.8分,显示出明显的缺陷。经过四位资深外科医生从手术流程、器械使用、组织反应和操作规范等四个维度进行的细致评估,研究人员发现模型在神经外科场景中的表现尤为糟糕,其手术逻辑性评分更是骤降至1.13分,远低于可接受范围。
研究数据揭示了一个令人担忧的事实:高达93%的错误都源于医学逻辑层面的问题。具体表现为模型经常虚构不存在的手术器械,或者生成违背生理规律的组织反应等严重错误。尽管研究团队尝试通过提供更多的上下文线索来帮助模型理解任务,但模型对医学知识的理解能力并未得到任何改善,依然停留在表面模仿阶段。这一发现引发了医学界的广泛关注,专家指出,如果这类AI系统被应用于医学培训领域,极有可能误导手术机器人或医学生,使其习得错误的技术和操作方法,对医疗安全和人才培养造成严重隐患。
为了推动AI医学认知能力的提升,研究团队计划开源SurgVeo数据集,这一举措将为学界提供宝贵的资源,促进相关技术的改进和进步。目前,视频生成模型虽然在模仿表象方面取得了显著进展,但仍然无法真正掌握真实手术的内在因果逻辑和复杂的生物机制。这表明,要实现真正智能化的医学AI,还需要在医学知识理解和手术逻辑推理方面取得突破性进展。
