微新创想:2026年3月1日,一项研究揭示了GPT-5及后续大语言模型在处理多轮分片式对话任务时出现显著性能下降的问题
研究人员菲利普·拉班团队对代码、数据库等六个任务进行了测试发现当使用分片式输入方式时模型的平均性能相比拼接式输入下降了33%这一结果在更新模型后依然存在
Python任务的表现相对较为稳定这表明不同任务类型对分片式输入的敏感度存在差异
性能下降的主要原因被归结为上下文碎片化问题即使调整温度值也无法有效缓解这一现象
研究团队建议在遇到异常情况时重启对话并以模型的自我总结作为新的起点这样可以部分恢复模型的性能
此外研究还指出实际用户在对话过程中动态调整意图的行为可能会进一步加剧模型性能的衰减这一发现对优化对话系统具有重要参考价值
