
智谱科技正式宣布开源其新一代多模态大模型——GLM-4.6V系列,为开发者带来突破性的视觉交互体验。该系列包含高性能的基础版GLM-4.6V(总参数量106B,激活参数12B)与轻量化的GLM-4.6V-Flash(9B版本),全面升级了多模态处理能力,重新定义了”视觉感知到可执行行动”的完整技术链路。
新模型突破性提升上下文窗口至128k tokens,在视觉理解精度上达到同参数级别模型的SOTA水平。更创新性地将Function Call原生集成到视觉模型中,实现了从图像识别到API调用的无缝衔接,彻底打通了”视觉感知→可执行行动”的完整链路。在价格方面,API调用费用较GLM-4.5V下降50%,基础版输入成本为1元/百万tokens,输出成本为3元/百万tokens;轻量版GLM-4.6V-Flash完全免费,特别集成GLM Coding Plan与专用MCP工具,让开发者实现零成本商用部署。
技术亮点全面升级:128k多图长文处理能力
GLM-4.6V系列展现出惊人的多模态处理能力,单轮可同时处理30张高分辨率图片和8万字文本,在Video-MME、MMBench-Video等长视频理解基准测试中取得SOTA表现。这一突破性能力使模型能够高效处理复杂的多模态场景,为长视频理解应用打开了全新可能。
原生Function Call技术革新
通过原生Function Call功能,视觉信号可直接映射为可执行API,无需传统Projector中间环节,调用延迟降低37%,成功率提升18%。这一创新彻底改变了传统视觉模型需要经过”视觉→文本→Prompt”冗长链路的处理方式,大幅提升了交互效率。
统一编码架构优化
模型采用统一的Transformer编码架构,能够同时处理图像、视频和文本数据,在推理过程中实现动态路由,显存占用效率提升30%。这种创新设计既保证了处理精度,又优化了资源利用率,为大规模应用部署提供了坚实保障。
价格与授权策略灵活
针对不同需求场景,智谱科技制定了差异化的价格策略。轻量版GLM-4.6V-Flash完全免费开放,权重与商用License全部解禁,特别适合边缘设备部署和SaaS集成;基础版GLM-4.6V在保持高性能的同时,价格腰斩至原价一半,输入成本为1元/百万tokens,输出成本为3元/百万tokens,约为GPT-4V价格的1/4,大幅降低了企业应用门槛。
开发者工具生态完善
为加速开发者应用落地,智谱科技提供了一系列专用开发工具:
– 专用MCP(Model-Context-Protocol)工具:通过10行代码即可将GLM-4.6V接入VS Code、Cursor等开发环境,实现”框选UI→自动生成前端代码”的智能化开发体验
– GLM Coding Plan:提供50+场景模板(涵盖网页、小程序、脚本等多种应用形式),帮助开发者快速将视觉需求转化为可执行代码并自动部署
– 在线Playground:支持拖拽图片、实时调试Function Call,一键导出Python/Node.js调用片段,大幅缩短开发周期
基准测试成绩亮眼
在权威基准测试中,GLM-4.6V系列展现出卓越性能:
| 基准测试 | GLM-4.6V | GPT-4V | Gemini1.5Pro |
|———|———|——-|————-|
| Video-MME | 74.8% | 69.1% | 72.9% |
| MMBench-Video | 82.1% | 78.4% | 80.6% |
| LongVideoBench(128k) | 65.3% | 58.2% | 62.1% |
商用场景案例丰富
GLM-4.6V系列已在多个垂直领域展现强大应用价值:
– 影视预览:导演上传角色图+分镜后,系统能自动输出30秒预览视频,主体一致性高达96%
– 工业检测:通过拍摄设备面板自动识别异常区域,并调用维修API创建工单,大幅提升质检效率
– 教育课件:教师框选课本插图后,系统能生成3D动画+语音讲解,一键导出PPT,为教育信息化提供创新解决方案
开放路线规划清晰
从即日起,智谱科技已将GLM-4.6V系列的权重、推理代码和MCP工具全部开源,开发者可通过GitHub和Hugging Face平台获取(搜索GLM-4.6V)。未来计划包括:
– 2025年Q1:发布支持1M上下文窗口的版本与端侧INT4量化模型,实现笔记本CPU运行
– 2025年Q2:推出”视觉Agent Store”,让开发者可上架自定义Function Call并按调用量分成
行业观察视角
当多模态技术仍多停留在”看得懂”阶段时,智谱科技通过Function Call原生集成创新,实现了”看得懂+做得出”的突破性进展。这一创新让图片可直接触发API调用,省去了传统视觉→文本→Prompt的冗余链路,极大提升了应用效率。免费9B版本的战略布局有效降低了技术尝鲜门槛,而106B基础版价格腰斩的举措,则显示出智谱科技快速抢占视觉Agent生态的雄心。随着128k长视频理解能力的落地,影视、工业、教育等垂直场景有望率先实现规模化应用落地。AIbase将持续关注其端侧量化与Agent Store的进展,期待这一创新技术生态的进一步发展。
