
阿里云飞天实验室自主研发的数据分析智能体“析言 XiYan-SQL”在全球权威SQL诊断评测基准BIRD-CRITIC(也称SWE-SQL)中表现惊艳,以绝对优势登顶所有开放榜单,不仅超越了国内外多家顶尖团队,更刷新了SQL诊断与修复的行业纪录。这一突破性成果标志着大语言模型在解决真实数据库应用问题上的重大进展。
BIRD-CRITIC基准由学术界与Google Cloud联合推出,其核心目标在于验证大语言模型能否有效解决企业数据库应用中的各类实际问题。该评测平台精心设计了海量企业级数据库场景,涵盖了MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统的常见报错、性能瓶颈和查询需求。题目设计既包含基础查询操作,也涉及复杂的插入、更新、删除等高级操作,更融入了大量模型未曾接触过的全新场景,整体难度远超传统“自然语言生成SQL”测试,真正模拟了生产环境中的挑战。
在此次评测中,析言 XiYan-SQL在BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG和BIRD-CRITIC-Flash三大核心榜单上均斩获第一,同时在跨方言鲁棒性、复杂SQL处理能力、真实问题修复率和分布外泛化等多个关键维度获得权威机构的高度认可。技术层面,析言 XiYan-SQL通过创新性的相关模式筛选(Schema Filter)、多生成器集成(Multi-Generator Ensemble)以及候选重组与最优选择(Selection with Candidate Reorganization)等技术手段,实现了SQL生成质量、可执行性和可维护性的完美平衡。

这一智能模型特别擅长处理存在脏数据、异构模式以及跨方言差异的真实系统环境,能够提供高可靠性的诊断与修复方案。目前,基于XiYan-SQL技术打造的生成式商业智能(GBI)产品“析言”已在阿里云百炼平台正式上线,面向市场提供专业的SQL生成与诊断服务。
划重点:🔍 析言 XiYan-SQL在BIRD-CRITIC评测中力压群雄,斩获所有开放榜单第一名。📊 该评测全面覆盖主流数据库系统,测试难度远超传统SQL生成挑战。💻 相关技术已实现开源,开发者可体验并贡献代码,共同推动行业发展。
