微新创想:2026年2月20日,微软研究院与Salesforce联合研究证实,当前顶尖大语言模型在多轮对话中可靠性显著下降。研究涵盖GPT-4.1、Gemini 2.5 Pro等15款模型,分析超20万次模拟对话。
结果显示:单轮任务成功率约90%,拆分为多轮后降至约65%。核心能力仅降15%,但不可靠性飙升112%。研究指出,主要原因是模型在对话初期就生成错误假设,导致后续回答偏离正确方向。
此外,模型在多轮对话中容易出现‘答案膨胀’现象,即在后续回答中引入幻觉信息。这种现象使得模型在复杂交互场景下的表现与单轮任务相比大幅降低,影响了实际应用中的准确性与稳定性。
现有单轮基准测试无法反映真实交互场景,因此研究建议开发者在构建对话系统时,应优先采用完整单提示策略。该策略有助于提升模型在多轮对话中的稳定性,减少因错误假设和幻觉信息带来的负面影响。
研究还强调,随着对话系统在实际场景中的广泛应用,模型的可靠性问题亟需引起重视。未来的研究方向应更加关注多轮对话中的动态变化,以及如何优化模型以适应更复杂的交互需求。
