智谱开源全球最强视觉推理模型GLM-4.5V参数达106B

智谱AI重磅宣布推出并开源了全球参数规模达100B且效果最优的开源视觉推理模型GLM-4.5V,这一里程碑式成果标志着该公司在探索通用人工智能(AGI)道路上迈出了坚实一步。该模型已同步在魔搭社区与Hugging Face平台实现全面开源,其总参数量高达106B,激活参数为12B,这一规模不仅刷新了多模态推理技术的纪录,更代表了行业发展的最新高度。GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建,完美延续了GLM-4.1V-Thinking的技术传承与创新路径。

在41项公开视觉多模态榜单的激烈竞争中,GLM-4.5V以绝对优势斩获同级别开源模型的最高性能(SOTA),全面覆盖图像识别、视频分析、文档理解及GUI Agent等核心任务领域。值得注意的是,该模型不仅实验室数据表现卓越,更在真实场景应用中展现出惊人的实用价值。通过创新的高效混合训练机制,GLM-4.5V成功整合了各类视觉内容处理能力,实现了全场景视觉推理的突破,包括但不限于图像推理、视频理解、GUI任务处理、复杂图表与长文档解析,以及先进的Grounding能力。特别设计的”思考模式”开关,让用户可根据需求灵活切换快速响应或深度推理模式,在效率与效果之间实现完美平衡。

为让开发者直观感受GLM-4.5V的强大能力,智谱清言团队同步开源了一款创新桌面助手应用。该应用支持实时截屏与录屏功能,可精准捕捉屏幕信息,并依托GLM-4.5V高效处理各类视觉推理任务,如代码辅助生成、视频内容智能分析、游戏场景解答、文档深度解读等多元应用场景。这款应用将成为您工作娱乐中的智能伙伴,让屏幕互动体验进入全新维度。

智谱开源全球最强视觉推理模型GLM-4.5V参数达106B插图1

技术实力方面,GLM-4.5V的API现已全面上线智谱开放平台BigModel.cn,特别为所有用户准备了2000万Tokens的免费资源包。该模型在保持业界顶尖精度的同时,实现了推理速度与部署成本的完美平衡,为企业与开发者提供了极具性价比的多模态AI解决方案。API调用价格极具竞争力:输入仅2元/M tokens,输出6元/M tokens,响应速度高达60-80tokens/s。此外,模型在视觉定位、前端复刻、图像识别推理、复杂文档深度解读以及GUI Agent能力等方面均展现出超凡实力。

具体技术细节上,GLM-4.5V由视觉编码器、MLP适配器和语言解码器三部分精密组成,支持长达64K的多模态长上下文处理,兼容图像与视频双重输入模式。通过创新的三维卷积技术,显著提升了视频处理效率;采用双三次插值机制,大幅增强了高分辨率及极端宽高比图像的处理能力与稳定性;更引入三维旋转位置编码(3D-RoPE),全方位强化了多模态信息的三维空间感知与推理能力。

开放资源:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

最新快讯

2025年08月12日

10:11
微新创想8月12日讯 近期,备受关注的百果园事件持续发酵,引发社会各界的广泛讨论。昨日,钟薛高创始人通过直播平台就此事发表了自己的看法,引发了业界的强烈反响。 他表示,自己始终不希望任何企业重蹈钟薛高的覆辙,对于百果园在事件中的表述方式,他认为确实存在让受众感到不适的地方。然而,当被直接质疑百果园董事长余惠勇是否看不起消费者、存在嫌贫爱富的心态时,这位创始...
10:11
8月11日,北京一位30岁的年轻女性经历了一场令人震惊的健康危机,她的故事迅速引发了社会各界的广泛关注。这位女性在日常生活中并未察觉任何明显的身体不适,如疼痛或瘙痒等异常症状,然而一次偶然的自我观察却让她发现了潜在的健康隐患——她的舌苔出现了异常的变色情况。起初,她并未对此变化给予过多关注,但出于谨慎的态度,还是决定前往医院进行详细检查。在医院,她原本以为这...
10:09
英国顶尖的人工智能研究机构图灵人工智能研究所(Alan Turing Institute)正深陷一场前所未有的危机之中。近日,该机构多名员工向慈善委员会提交了匿名投诉,直指研究所可能面临全面崩溃的边缘。这起事件不仅引发了公众对研究所运营状况的广泛关注,更对其领导层的决策能力和管理方式提出了严厉质疑,指控其在公共资金使用上存在严重不当行为,同时揭露了内部弥漫的...
10:09
OpenAI 近期震撼发布其最新开源模型 gpt-oss-20b,这款拥有200亿参数的强大语言模型在多项基准测试中展现出与 o3-mini 相当的卓越表现,彰显出其超凡的推理能力。尤为引人注目的是,高通公司在此项发布中宣布,gpt-oss-20b 是首款能够在搭载骁龙平台的终端设备上流畅运行的开源推理模型,为移动AI应用开辟了全新路径。 此前,OpenAI...
10:09
马斯克近日在社交平台 X 上正式宣布,特斯拉已决定解散原负责 Dojo AI 训练超算的核心团队。这一决定距离他公开表示预计在2026年实现第二套 Dojo 集群大规模部署仅过去了短短数周时间。马斯克在推文中透露:"随着所有技术路线最终都指向 AI6 的方向,我不得不做出关闭 Dojo 的艰难决定。Dojo2 已经成为技术演进上的死胡同,而 Dojo3 则将...
10:09
Anthropic 近期正式推出备受瞩目的 Claude AI 聊天机器人“记忆功能”,这一创新特性将彻底改变人机交互体验。系统现在能够智能地从历史对话中提取并持续保存用户的背景信息,包括职业背景、年龄阶段、教育经历以及独特的交流风格等关键数据。这意味着在后续对话中,Claude AI 无需用户反复重复个人信息,即可提供高度个性化的精准回复,大幅提升沟通效率...
10:09
2024年,苹果曾发布一段令人期待的全新智能版Siri演示视频,展示了其与多款应用无缝连接、实时获取各类信息的能力。然而,这一备受瞩目的版本至今仍处于秘密测试阶段,官方尚未公布正式推出时间,外界猜测可能是因为技术尚未完全成熟。近日,彭博社独家披露了苹果在Siri领域最新的研发进展:公司正在秘密测试一款突破性的新版本Siri,它能够通过自然语音指令,直接在不同...
10:09
英伟达在 SIGGRAPH 大会上的重磅发布,为机器人开发者带来了革命性的 AI 模型、库及基础设施升级,其中最耀眼的明星是参数量高达 70 亿的"推理型"视觉语言模型 Cosmos Reason。这款专为物理 AI 应用与机器人打造的创新模型,将成为推动智能机器人发展的关键力量。此次英伟达不仅升级了 Cosmos 系列,还新增了 Cosmos Transf...
10:09
英特尔于2025年8月正式发布了其备受瞩目的“战斗矩阵”项目的最新软件更新,隆重推出专为Linux环境打造的LLM-Scaler1.0容器,旨在全面提升Intel Arc B系列显卡在AI推理场景下的性能表现。这一重要进展标志着英特尔在AI加速领域持续深耕的又一里程碑。 早在今年5月,英特尔便首次披露了“战斗矩阵”项目的宏伟蓝图,该计划的核心目标是通过支持多...
10:09
8月12日,沪深两市交投活跃,总成交额强势突破5000亿元大关,创下近期新高。当日市场情绪高涨,超过2000家个股录得上涨,展现出强劲的上涨动能和普遍的赚钱效应。这一积极表现不仅提振了投资者信心,也为市场注入了新的活力,显示出经济复苏和资本市场回暖的良好态势。分析人士认为,成交量的放大和个股普涨格局,或与资金面持续宽松、市场风险偏好提升等因素密切相关,未来市...
10:08
8月12日,港股市场锂矿板块遭遇显著回调,多只核心企业股价大幅下挫。其中,天齐锂业股价单日跌幅超过7%,赣锋锂业也未能幸免,跌幅超过4%。这一轮调整引发了市场广泛关注,分析人士指出,背后可能存在多重因素。一方面,市场对锂价未来走势的担忧情绪加剧,部分投资者开始重新评估锂行业的长期盈利能力。另一方面,整体股市环境的波动也对锂矿板块造成传导效应,资金避险情绪升温...
10:08
2025年8月12日,诚益通正式宣布在脑机接口领域完成“侵入式与非侵入式”双轨战略布局的全面部署。这一重要举措标志着公司在脑机接口技术领域的领先地位得到进一步巩固,为未来更广泛的应用场景奠定了坚实基础。 在非侵入式脑机接口技术方面,诚益通正积极推动其创新成果向实际应用的转化。公司目前已将脑机接口技术成功应用于康复设备的升级改造,通过智能化技术显著提升了康复设...