国产AI大模型GLM-5.1登顶开源榜首实现8小时独立编程突破

2026-04-11 10:33:19 互联网 1 次阅读

微新创想：3月底智谱正式推出了GLM-5.1大模型编程能力评分达到45.3分号称仅比全球最强的Opus 4.6低了2.6分这一成绩引发了广泛关注

微新创想：前两天GLM-5.1大模型也正式开源深受开发者喜爱在开源社区中获得了极高的评价

微新创想：现在最新的排名也来了全球权威AI评测平台LMArena更新了Code Arena专项榜单GLM-5.1登顶全球开源模型第一位列全球模型第三这一排名充分体现了其在代码生成和编程任务中的卓越表现

微新创想：除了榜单表现优秀根据智谱的说法GLM-5.1不仅继承了上一代模型的开源SOTA编码能力还在长程任务Long-Horizon Task上取得突破实现了8小时从零构建Linux桌面655次迭代打破向量数据库优化瓶颈1000轮工具调用优化真实机器学习模型负载等多项突破性成果

微新创想：值得一提的是在METR榜单的同等评估标准下GLM-5.1是唯一达到8小时级持续工作的开源模型也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型

微新创想：此前智谱提到GLM-5.1大大提高了代码能力在完成长程任务方面提升尤为显著

微新创想：在最接近真实软件开发的SWE-bench Pro基准测试中GLM-5.1刷新了全球最佳成绩超过GPT-5.4和Claude Opus 4.6

微新创想：SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程Bug是衡量模型能否胜任专业软件开发的最硬指标这一测试结果进一步证明了GLM-5.1在实际应用中的强大能力

2026年04月11日

11:03