2026年1月,知名科技专栏作家Geoffrey A. Fowler率先体验了OpenAI最新推出的ChatGPT Health功能,并上传了长达十年的Apple Watch健康数据作为测试样本。这些数据包含了令人惊叹的2900万步计步记录和600万次心率监测数据,旨在检验AI在健康领域的应用潜力。然而,令人意想不到的结果出现了——ChatGPT Health系统经过分析后,竟给出了一个”健康等级F”的惊人判定,将Fowler的健康状况直接归为最低级别。
Fowler并未被这个结果吓倒,而是立即前往医院接受专业医生的全面检查。经过详细的心脏健康评估,医生明确指出Fowler的心脏病风险极低,完全无需进行任何进一步的检测。这一专业诊断与AI系统的判断形成了鲜明对比,引发了人们对AI健康诊断准确性的深刻思考。
经过深入分析,Fowler发现AI系统误判的主要原因在于几个关键性技术缺陷。首先,AI系统错误地将苹果手表估算的VO2 max值当作了临床级别的精确数据,导致评估结果严重偏离实际健康状况。其次,系统未能识别出新款Apple Watch传感器升级后,静息心率基准值发生的自然变化,从而产生了错误的健康解读。这两个技术漏洞直接导致了AI系统在健康评估方面的严重失误。
更令人担忧的是,Fowler在多次询问同一问题时,ChatGPT Health给出的健康等级在F至B之间大幅波动,显示出系统缺乏必要的稳定性。此外,系统还频繁出现记忆障碍,多次遗忘用户的基本信息,如年龄、性别等重要参数,以及之前提供的血液检测报告等关键健康数据。这些缺陷暴露了AI系统在处理复杂健康数据时的不足之处。
这一事件不仅揭示了AI健康诊断技术仍处于发展初期,也提醒我们在依赖AI进行健康评估时必须保持谨慎。虽然AI技术在健康领域展现出巨大潜力,但现阶段仍无法完全替代专业医疗诊断。对于普通用户而言,将AI健康建议作为参考尚可,但绝不能将其作为最终诊断依据。随着技术的不断进步,相信AI健康诊断系统终将克服现有缺陷,为人类健康事业做出更大贡献。
