智谱AI重磅宣布推出并开源了全球参数规模达100B且效果最优的开源视觉推理模型GLM-4.5V,这一里程碑式成果标志着该公司在探索通用人工智能(AGI)道路上迈出了坚实一步。该模型已同步在魔搭社区与Hugging Face平台实现全面开源,其总参数量高达106B,激活参数为12B,这一规模不仅刷新了多模态推理技术的纪录,更代表了行业发展的最新高度。GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建,完美延续了GLM-4.1V-Thinking的技术传承与创新路径。
在41项公开视觉多模态榜单的激烈竞争中,GLM-4.5V以绝对优势斩获同级别开源模型的最高性能(SOTA),全面覆盖图像识别、视频分析、文档理解及GUI Agent等核心任务领域。值得注意的是,该模型不仅实验室数据表现卓越,更在真实场景应用中展现出惊人的实用价值。通过创新的高效混合训练机制,GLM-4.5V成功整合了各类视觉内容处理能力,实现了全场景视觉推理的突破,包括但不限于图像推理、视频理解、GUI任务处理、复杂图表与长文档解析,以及先进的Grounding能力。特别设计的”思考模式”开关,让用户可根据需求灵活切换快速响应或深度推理模式,在效率与效果之间实现完美平衡。
为让开发者直观感受GLM-4.5V的强大能力,智谱清言团队同步开源了一款创新桌面助手应用。该应用支持实时截屏与录屏功能,可精准捕捉屏幕信息,并依托GLM-4.5V高效处理各类视觉推理任务,如代码辅助生成、视频内容智能分析、游戏场景解答、文档深度解读等多元应用场景。这款应用将成为您工作娱乐中的智能伙伴,让屏幕互动体验进入全新维度。
技术实力方面,GLM-4.5V的API现已全面上线智谱开放平台BigModel.cn,特别为所有用户准备了2000万Tokens的免费资源包。该模型在保持业界顶尖精度的同时,实现了推理速度与部署成本的完美平衡,为企业与开发者提供了极具性价比的多模态AI解决方案。API调用价格极具竞争力:输入仅2元/M tokens,输出6元/M tokens,响应速度高达60-80tokens/s。此外,模型在视觉定位、前端复刻、图像识别推理、复杂文档深度解读以及GUI Agent能力等方面均展现出超凡实力。
具体技术细节上,GLM-4.5V由视觉编码器、MLP适配器和语言解码器三部分精密组成,支持长达64K的多模态长上下文处理,兼容图像与视频双重输入模式。通过创新的三维卷积技术,显著提升了视频处理效率;采用双三次插值机制,大幅增强了高分辨率及极端宽高比图像的处理能力与稳定性;更引入三维旋转位置编码(3D-RoPE),全方位强化了多模态信息的三维空间感知与推理能力。
开放资源:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e