
微新创想4月2日消息 智谱正式发布面向视觉编程打造的GLM-5V-Turbo多模态Coding基座模型 该模型从预训练阶段深度融合视觉与文本能力 打破了纯文本输入的编程局限 能看懂设计稿 截图 网页界面并生成可运行代码 真正实现了看得懂画面 写得出代码

GLM-5V-Turbo拥有三大核心特性 其一为原生多模态Coding基座 可原生理解图片 视频 设计稿等多模态输入 支持画框 截图等多模态工具调用 上下文窗口拓展至200k 让Agent的感知-行动链路延伸至视觉交互 其二是兼顾视觉与编程能力 在多模态Coding GUI Agent等核心基准上表现领先 且通过多任务协同RL技术 保证纯文本场景下的编程 推理能力不退化 其三是深度适配Claude Code与龙虾场景 可实现看懂环境 规划动作执行任务”的完整闭环 还配备全套官方Skills 开箱即可使用
实测数据显示 GLM-5V-Turbo在设计稿还原 视觉代码生成等基准上均取得领先 在AndroidWorld WebVoyager等GUI环境操控测试中表现突出 纯文本Coding能力也保持稳定 在龙虾Agent相关测试中 模型接入后让龙虾拥有真正的视觉能力 在PinchBench等评测中斩获优异成绩 复杂任务执行能力得到验证

目前GLM-5V-Turbo已落地图像即代码 龙虾视觉赋能等典型场景 能实现前端复刻 GUI自主探索复刻 还能让龙虾完成K线图解读 图文报告生成等任务 用户可通过AutoClaw Z.ai等产品体验 也能通过官方API接入 多款官方Skills也已上线ClawHub
