阿里云析言 XiYan-SQL 全球夺冠 BIRD-CRITIC 评测第一

2025-12-05 14:31:11 AI动态 2 次阅读

阿里云飞天实验室自主研发的数据分析智能体“析言 XiYan-SQL”在全球权威SQL诊断评测基准BIRD-CRITIC（也称SWE-SQL）中表现惊艳，以绝对优势登顶所有开放榜单，不仅超越了国内外多家顶尖团队，更刷新了SQL诊断与修复的行业纪录。这一突破性成果标志着大语言模型在解决真实数据库应用问题上的重大进展。

BIRD-CRITIC基准由学术界与Google Cloud联合推出，其核心目标在于验证大语言模型能否有效解决企业数据库应用中的各类实际问题。该评测平台精心设计了海量企业级数据库场景，涵盖了MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统的常见报错、性能瓶颈和查询需求。题目设计既包含基础查询操作，也涉及复杂的插入、更新、删除等高级操作，更融入了大量模型未曾接触过的全新场景，整体难度远超传统“自然语言生成SQL”测试，真正模拟了生产环境中的挑战。

在此次评测中，析言 XiYan-SQL在BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG和BIRD-CRITIC-Flash三大核心榜单上均斩获第一，同时在跨方言鲁棒性、复杂SQL处理能力、真实问题修复率和分布外泛化等多个关键维度获得权威机构的高度认可。技术层面，析言 XiYan-SQL通过创新性的相关模式筛选（Schema Filter）、多生成器集成（Multi-Generator Ensemble）以及候选重组与最优选择（Selection with Candidate Reorganization）等技术手段，实现了SQL生成质量、可执行性和可维护性的完美平衡。