智谱开源全球最强视觉推理模型GLM-4.5V参数达106B

2025-08-12 08:27:46 AI动态 53 次阅读

智谱AI重磅宣布推出并开源了全球参数规模达100B且效果最优的开源视觉推理模型GLM-4.5V，这一里程碑式成果标志着该公司在探索通用人工智能（AGI）道路上迈出了坚实一步。该模型已同步在魔搭社区与Hugging Face平台实现全面开源，其总参数量高达106B，激活参数为12B，这一规模不仅刷新了多模态推理技术的纪录，更代表了行业发展的最新高度。GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建，完美延续了GLM-4.1V-Thinking的技术传承与创新路径。

在41项公开视觉多模态榜单的激烈竞争中，GLM-4.5V以绝对优势斩获同级别开源模型的最高性能（SOTA），全面覆盖图像识别、视频分析、文档理解及GUI Agent等核心任务领域。值得注意的是，该模型不仅实验室数据表现卓越，更在真实场景应用中展现出惊人的实用价值。通过创新的高效混合训练机制，GLM-4.5V成功整合了各类视觉内容处理能力，实现了全场景视觉推理的突破，包括但不限于图像推理、视频理解、GUI任务处理、复杂图表与长文档解析，以及先进的Grounding能力。特别设计的”思考模式”开关，让用户可根据需求灵活切换快速响应或深度推理模式，在效率与效果之间实现完美平衡。

为让开发者直观感受GLM-4.5V的强大能力，智谱清言团队同步开源了一款创新桌面助手应用。该应用支持实时截屏与录屏功能，可精准捕捉屏幕信息，并依托GLM-4.5V高效处理各类视觉推理任务，如代码辅助生成、视频内容智能分析、游戏场景解答、文档深度解读等多元应用场景。这款应用将成为您工作娱乐中的智能伙伴，让屏幕互动体验进入全新维度。

技术实力方面，GLM-4.5V的API现已全面上线智谱开放平台BigModel.cn，特别为所有用户准备了2000万Tokens的免费资源包。该模型在保持业界顶尖精度的同时，实现了推理速度与部署成本的完美平衡，为企业与开发者提供了极具性价比的多模态AI解决方案。API调用价格极具竞争力：输入仅2元/M tokens，输出6元/M tokens，响应速度高达60-80tokens/s。此外，模型在视觉定位、前端复刻、图像识别推理、复杂文档深度解读以及GUI Agent能力等方面均展现出超凡实力。

具体技术细节上，GLM-4.5V由视觉编码器、MLP适配器和语言解码器三部分精密组成，支持长达64K的多模态长上下文处理，兼容图像与视频双重输入模式。通过创新的三维卷积技术，显著提升了视频处理效率；采用双三次插值机制，大幅增强了高分辨率及极端宽高比图像的处理能力与稳定性；更引入三维旋转位置编码（3D-RoPE），全方位强化了多模态信息的三维空间感知与推理能力。

开放资源：
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

2026年03月05日

11:18

智谱开源全球最强视觉推理模型GLM-4.5V参数达106B

最新快讯

2026年03月05日

车停半个月底盘被老鼠塞了20斤粮食车主：踩刹车有异响才发现

华为AI眼镜来了！4月发布：支持拍摄、同声传译等

库克秀刀法苹果MacBook Neo搭载残血版A18 Pro：砍掉一个GPU核心

男子仅凭微信转账记录起诉同学借款被驳回法院：需证明借贷合意

日本凯洛斯火箭第三次发射失败升空后解体爆炸引关注

微软推送KB5075039修复WinRE启动故障及USB失灵问题

博众泰达完成A+轮融资龙江基金助力超精密制造升级

佰为深科技完成C+轮融资顺禧基金独家投资助力高端医疗传感发展

天晴空天A+轮融资落地晨熹资本助力无人飞行平台发展

南科天润完成A轮融资国华投资力鼎资本联合入股固态电池技术产业化进展

iPhone 17 Pro星宇橙褪色变粉引争议苹果回应无集中反馈

一加15T即将发布：7500mAh电池四等边窄屏全场景防水旗舰