8月11日,智谱科技震撼发布其最新力作——视觉理解模型GLM-4.5V,为人工智能领域再添一项突破性成果。这款模型基于新一代文本模型GLM-4.5-Air精心训练而成,不仅完美继承了上一代视觉推理模型GLM-4.1V-Thinking的技术精髓,更在参数规模上实现了飞跃式增长,拥有高达1060亿参数和120亿激活参数的强大配置。尤为引人注目的是,GLM-4.5V创新性地加入了”思考模式”开关功能,让用户可以根据实际需求灵活选择是否启用,从而在复杂任务处理中实现更精准的调控。
GLM-4.5V的视觉分析能力堪称惊艳。它能够通过细致入微的色泽、质感等多维度分析,精准区分麦当劳与肯德基的炸鸡翅等细微差别。在图像识别领域,该模型表现同样卓越,不仅能够参与高难度的图像猜地点挑战,更以第66名的优异成绩超越99%的人类参赛者,充分展现了其超凡的视觉智能。智谱科技还公开展示了GLM-4.5V在42项权威基准测试中的亮眼表现,其中绝大多数测试得分均显著领先于同等规模的竞品模型。
为了让更多开发者体验这一前沿技术,智谱科技已将GLM-4.5V全面开源,用户可免费通过Hugging Face、魔搭和GitHub等平台获取使用权,同时还提供了高效的FP8量化版本以优化运行性能。为提升用户体验,智谱特别开发了桌面助手应用程序,支持实时截屏与录屏功能,可协助用户完成代码辅助、文档解读等各类视觉推理任务。实际测试表明,GLM-4.5V在位置推断方面表现出色,虽然偶尔会出现微小误差,但其丰富的推理过程依然令人印象深刻。特别是在网页内容处理上,该模型能够通过截图生成高度相似的页面复制品,展现了惊人的复现能力。
GLM-4.5V不仅在视觉理解领域独占鳌头,更在智能Agent应用场景中展现出巨大潜力。随着这项技术的持续演进,我们有充分理由相信,GLM-4.5V将在未来为各行各业带来革命性的变革,为人们的生活创造更多可能。