
微新创想:微软 GitHub 于 4 月 6 日发布了一个激动人心的消息 为 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能 这项新功能引入了一种跨模型的 “第二意见” 审查机制 旨在帮助开发者提升代码的准确性和效率 最终使 AI 的性能提升近 75%
在软件开发过程中 早期的决策错误往往会积累成更大的问题 而传统的自我审查方法容易受到模型本身训练偏差的影响 Rubber Duck 的推出 正是为了引入不同的模型作为独立审查者 从而提供多元化的视角 及时发现潜在的错误
这项功能支持用户选择 Claude 系列模型作为主控 接着使用 GPT-5.4 进行代码审查 确保代码的准确性和完整性 通过 SWE-Bench Pro 基准测试 研究显示 Claude Sonnet 4.6 和 Opus 4.6 的单独运行存在显著性能差距 而 Sonnet 4.6 结合 Rubber Duck 后 成功弥补了 74.7% 的性能差距

在处理复杂任务时 该功能的表现更为突出 得分比基线高出 3.8% 具体案例表明 它能有效识别架构逻辑漏洞 循环覆盖错误以及跨文件的冲突问题 Rubber Duck 的使用方式灵活多样 支持主动 被动和用户触发的三种审查模式
系统会在制定计划 复杂实现和测试编写后的关键节点自动寻求审查 也可以在开发者陷入问题时被动触发 同时 用户还可以随时主动请求审查 系统会展示反馈内容和修改依据
目前 Rubber Duck 功能已在实验模式下上线 用户只需安装 GitHub Copilot CLI 并运行 /experimental 命令 即可启用这一新功能 享受 Claude 模型与 GPT-5.4 的协同工作体验
