学术团队创新SFT方法 OpenSeeker-v2登顶搜索智能体榜单

2026-05-06 15:39:41 AI动态 1 次阅读

微新创想：在当前的大模型（LLM）领域深度搜索能力已成为顶尖智能体的“必杀技” 然而这一赛道的游戏规则长期以来被资源雄厚的工业巨头所主导传统的开发模式通常依赖于极其消耗资源的流水线包括预训练持续预训练（CPT）监督微调（SFT）以及强化学习（RL）

学术团队创新SFT方法 OpenSeeker-v2登顶搜索智能体榜单插图

近日来自学术界的研发团队发布了最新成果 OpenSeeker-v2 彻底打破了这一常规认知研究报告指出通过使用高质量高难度的任务轨迹进行训练即便仅采用简单的监督微调（SFT）方法也能打造出性能顶尖的搜索智能体该团队在数据合成方面提出了三项核心优化策略首先是扩大知识图谱规模以提供更丰富的探索空间其次是显著增加工具集数量扩展功能边界最后是实施严格的低步数过滤确保训练数据的精炼与高效

学术团队创新SFT方法 OpenSeeker-v2登顶搜索智能体榜单插图1

实验数据显示仅基于1.06万条数据点训练的 OpenSeeker-v2（30B规模 ReAct架构）在四项核心基准测试中展现了极强的统治力其在BrowseComp上的准确率达到46.0% 在BrowseComp-ZH上为58.1% 在“人类最后考试”（Humanity’s Last Exam）中表现为34.6% 而在xbench上更是高达78.0% 这一系列成绩不仅刷新了纪录更全面超越了采用重度CPT+SFT+RL复杂管线训练的工业界模型——通义DeepResearch

值得关注的是这是首个在同等模型规模与架构下由纯学术团队仅通过SFT技术实现的 state-of-the-art（SOTA）搜索智能体目前该团队已正式开源 OpenSeeker-v2 的模型权重这一发现极大地降低了前沿搜索智能体的研发门槛为学术界和开源社区提供了更具参考价值的轻量化开发路径