智谱联合TileRT推出GLM-5.1高速版API刷新全球400tokens/s速度纪录

2026-05-22 10:00:40 AI动态 4 次阅读

微新创想：智谱今日正式面向部分企业客户推出GLM-5.1高速版API（GLM-5.1-highspeed）该模型输出速度达到惊人的400tokens/s 成功刷新当前全球大模型厂商API的速度上限

微新创想：打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例 GLM-5.1高速版首次在国产大模型中将旗舰级模型能力与极致低延迟同时带入生产环境用户无需再为响应速度而牺牲模型质量

微新创想：颠覆传统体验直击速度敏感场景在长程任务和复杂生产环境中速度的提升带来了产品形态的质变

微新创想：AI编程（Coding Agent）在完整保留GLM-5.1强大能力的基础上新模型实现“即问即答”模型能一边理解工程上下文一边持续生成代码与修改方案在需要数十轮调用的重构项目中彻底消除了累计数分钟的空等

微新创想：实时动态建模在3D地图实测中玩家控制角色移动并输入文字模型能够瞬时完成建模并实时改变场景

微新创想：Agent Swarm并行调度在长程任务中模型可在30秒内完成复杂网页处理并能瞬间调度50个不同人格并行回答展现出新型操作系统的雏形

微新创想：核心技术揭秘GLM-5.1高速版400TPS的稳定生产级能力得益于智谱GLM团队与TileRT团队联合进行的系统级优化

微新创想：推理引擎层（TileRT编译期AOT静态编排）传统主流框架以算子（operator/kernel）作为基本调度单元在单token、小batch场景下会放大调度、访存与同步开销 TileRT彻底抛弃了Runtime层的动态调度在编译期（AOT）将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel

微新创想：在单卡内计算、异步IO与通信被拆解为Tile级微任务整个推理只Launch一次Kernel 中间结果通过寄存器、Shared Memory和L2Cache直传不再写回全局内存

微新创想：调度系统层通过动态批处理、请求合并和KV缓存调度优化显著降低了高并发场景下的尾延迟

微新创想：基础设施层在多卡尺度上 TileRT将SM内部的Warp Specialization思路扩展到整张8卡NVL拓扑不同GPU rank依据计算密度与数据依赖被特化为不同worker 配合网络链路与负载均衡协同优化确保高性能的常驻稳定性

微新创想：开放计划GLM-5.1高速版适用于对响应延迟要求极高的AI编程、实时交互、商业决策以及实时语音等场景目前该服务已正式上线智谱MaaS平台并面向部分企业客户开放

微新创想：智谱官方表示未来将持续推进推理引擎的工程优化进一步扩大高速模型的服务能力

2026年05月22日

11:16

智谱联合TileRT推出GLM-5.1高速版API刷新全球400tokens/s速度纪录

最新快讯

2026年05月22日

努比亚Z80 Ultra接入DeepSeek V4无需系统更新直接体验AI新功能

朋友请刮彩票中100万起诉索奖法院驳回诉讼请求

美国AI监管令遭特朗普紧急叫停技术竞争与安全风险博弈升级

国家发改委部署具身智能训练基础设施助力“大小脑”模型发展

BAI资本8亿美元美元基金首关募资6亿聚焦跨境增长与科技创新投资

中科沌序完成数千万元种子轮融资布局低空安全与群体智能技术

李佳琦618预售首小时GMV双位数增长国货占比近50%

智谱GLM-5.1高速版API上线输出速度达400 tokens/s创全球新高

马修·鲍尔就任Xbox首席战略官推动IP复兴与社交游戏升级

巴德股份新三板挂牌上市聚氨酯新材料引领高端化工新发展

光刻胶概念强势拉升华软科技格林达涨停引领国产替代行情

嘉德利今日正式登陆上交所主板证券代码603435开启新篇章