智谱开源GLM-4.6V系列:106B原生支持Function Call,9B轻量版免费商用

智谱科技正式宣布开源其新一代多模态大模型——GLM-4.6V系列,为开发者带来突破性的视觉交互体验。该系列包含高性能的基础版GLM-4.6V(总参数量106B,激活参数12B)与轻量化的GLM-4.6V-Flash(9B版本),全面升级了多模态处理能力,重新定义了”视觉感知到可执行行动”的完整技术链路。

新模型突破性提升上下文窗口至128k tokens,在视觉理解精度上达到同参数级别模型的SOTA水平。更创新性地将Function Call原生集成到视觉模型中,实现了从图像识别到API调用的无缝衔接,彻底打通了”视觉感知→可执行行动”的完整链路。在价格方面,API调用费用较GLM-4.5V下降50%,基础版输入成本为1元/百万tokens,输出成本为3元/百万tokens;轻量版GLM-4.6V-Flash完全免费,特别集成GLM Coding Plan与专用MCP工具,让开发者实现零成本商用部署。

技术亮点全面升级:128k多图长文处理能力
GLM-4.6V系列展现出惊人的多模态处理能力,单轮可同时处理30张高分辨率图片和8万字文本,在Video-MME、MMBench-Video等长视频理解基准测试中取得SOTA表现。这一突破性能力使模型能够高效处理复杂的多模态场景,为长视频理解应用打开了全新可能。

原生Function Call技术革新
通过原生Function Call功能,视觉信号可直接映射为可执行API,无需传统Projector中间环节,调用延迟降低37%,成功率提升18%。这一创新彻底改变了传统视觉模型需要经过”视觉→文本→Prompt”冗长链路的处理方式,大幅提升了交互效率。

统一编码架构优化
模型采用统一的Transformer编码架构,能够同时处理图像、视频和文本数据,在推理过程中实现动态路由,显存占用效率提升30%。这种创新设计既保证了处理精度,又优化了资源利用率,为大规模应用部署提供了坚实保障。

价格与授权策略灵活
针对不同需求场景,智谱科技制定了差异化的价格策略。轻量版GLM-4.6V-Flash完全免费开放,权重与商用License全部解禁,特别适合边缘设备部署和SaaS集成;基础版GLM-4.6V在保持高性能的同时,价格腰斩至原价一半,输入成本为1元/百万tokens,输出成本为3元/百万tokens,约为GPT-4V价格的1/4,大幅降低了企业应用门槛。

开发者工具生态完善
为加速开发者应用落地,智谱科技提供了一系列专用开发工具:
– 专用MCP(Model-Context-Protocol)工具:通过10行代码即可将GLM-4.6V接入VS Code、Cursor等开发环境,实现”框选UI→自动生成前端代码”的智能化开发体验
– GLM Coding Plan:提供50+场景模板(涵盖网页、小程序、脚本等多种应用形式),帮助开发者快速将视觉需求转化为可执行代码并自动部署
– 在线Playground:支持拖拽图片、实时调试Function Call,一键导出Python/Node.js调用片段,大幅缩短开发周期

基准测试成绩亮眼
在权威基准测试中,GLM-4.6V系列展现出卓越性能:
| 基准测试 | GLM-4.6V | GPT-4V | Gemini1.5Pro |
|———|———|——-|————-|
| Video-MME | 74.8% | 69.1% | 72.9% |
| MMBench-Video | 82.1% | 78.4% | 80.6% |
| LongVideoBench(128k) | 65.3% | 58.2% | 62.1% |

商用场景案例丰富
GLM-4.6V系列已在多个垂直领域展现强大应用价值:
– 影视预览:导演上传角色图+分镜后,系统能自动输出30秒预览视频,主体一致性高达96%
– 工业检测:通过拍摄设备面板自动识别异常区域,并调用维修API创建工单,大幅提升质检效率
– 教育课件:教师框选课本插图后,系统能生成3D动画+语音讲解,一键导出PPT,为教育信息化提供创新解决方案

开放路线规划清晰
从即日起,智谱科技已将GLM-4.6V系列的权重、推理代码和MCP工具全部开源,开发者可通过GitHub和Hugging Face平台获取(搜索GLM-4.6V)。未来计划包括:
– 2025年Q1:发布支持1M上下文窗口的版本与端侧INT4量化模型,实现笔记本CPU运行
– 2025年Q2:推出”视觉Agent Store”,让开发者可上架自定义Function Call并按调用量分成

行业观察视角
当多模态技术仍多停留在”看得懂”阶段时,智谱科技通过Function Call原生集成创新,实现了”看得懂+做得出”的突破性进展。这一创新让图片可直接触发API调用,省去了传统视觉→文本→Prompt的冗余链路,极大提升了应用效率。免费9B版本的战略布局有效降低了技术尝鲜门槛,而106B基础版价格腰斩的举措,则显示出智谱科技快速抢占视觉Agent生态的雄心。随着128k长视频理解能力的落地,影视、工业、教育等垂直场景有望率先实现规模化应用落地。AIbase将持续关注其端侧量化与Agent Store的进展,期待这一创新技术生态的进一步发展。

最新快讯

2025年12月11日

03:04
2025年12月11日,黑石集团首席运营官在公开场合明确指出,芯片产业、数据中心建设以及电力系统等领域正迎来资本需求井喷式增长。凭借雄厚的资金实力和丰富的投资经验,黑石集团在参与这些前沿项目投资方面具备显著优势。这一表态不仅揭示了全球对高科技基础设施建设的持续加码,更凸显了大型资产管理机构正积极抢占关键领域发展先机。黑石集团已制定明确战略,计划大幅增加对上述...
03:04
2024年10月,智利铜矿产量数据揭示出该国矿业板块的显著分化态势。埃斯孔迪达铜矿当月产量高达12.06万吨,较去年同期增长11.7%,展现出强劲的生产活力;与之形成鲜明对比的是,科拉瓦西铜矿产量骤降至3.5万吨,同比大幅下滑29.3%。这一组数据由智利国家铜业委员会权威发布,直观反映了不同矿区在生产运营层面的差异。值得注意的是,智利作为全球最大的铜生产国,...
02:04
2025年12月11日,财联社独家披露,埃隆·马斯克麾下的太空探索技术公司(SpaceX)正式宣布,将旗下数据中心项目纳入新一轮股权融资计划中。据悉,该数据中心项目专为星链(Starlink)等前沿业务量身打造,旨在构建更强大的地面数据支持体系,从而显著提升全球通信服务的响应速度与稳定性。此次股权出售不仅为SpaceX注入新鲜血液,更将吸引众多对基础设施建设...
02:04
2025年12月11日,谷歌正式宣布将在全球安卓平台推出一项具有划时代意义的紧急实时视频功能。这项创新功能旨在通过可视化信息传递,显著提升紧急情况下的救援效率,为全球安卓用户提供更可靠的紧急求助保障。 该功能面向所有安卓设备用户,无论身处何种紧急状况,用户均可通过一键触发紧急求助流程。在确认求助信息后,用户可选择启动实时视频流,将现场高清画面直接传输至预设的...
02:04
12月10日,巴西圣保罗市遭遇罕见强风袭击,引发大范围停电事故。受影响区域覆盖圣保罗市及周边地区,截至中午时分,全市约112.7万用户陷入黑暗,其中市内核心区域停电用户高达72万。据当地电力公司紧急通报,此次停电主因是南部副热带气旋带来的超强阵风,导致多条供电线路遭树枝、广告牌等异物撞击,引发供电中断。 这场突如其来的风灾不仅让城市陷入黑暗,更对航空运输...
01:32
SpaceX的估值飙升将引发全球资本市场的瞩目。若这家航天巨头在2026年成功上市,其估值或将达到惊人的1.5万亿美元,这一数字不仅刷新行业纪录,更将马斯克的财富推向前所未有的高度。作为公司最大股东,马斯克所持约42%的股份价值将突破6250亿美元大关,相当于他个人财富的增幅超过一倍。这意味着马斯克的身家有望从目前的约4606亿美元跃升至9520亿美元,距离...
01:32
2025年12月11日,备受瞩目的网络设备供应商FS.com正式向香港交易所递交了主板上市申请,标志着这家以光通信领域见长的中国科技企业迈出了国际化资本运作的关键一步。作为总部位于深圳的创新型企业,FS.com凭借其卓越的光通信产品与解决方案,已成功构建起覆盖全球的广泛客户网络,为全球通信基础设施提供重要技术支撑。此次IPO计划通过港交所主板平台,拟募集的资...
01:01
2025年12月11日,谷歌正式宣布推出一项创新服务——适用于移动网页的YouTube Shorts广告。这项服务将广告无缝融入YouTube移动网页版的Shorts短视频信息流中,从而覆盖更广泛的用户场景。谷歌此举的核心目标在于进一步拓展Shorts的商业化能力,帮助广告主精准触达全球范围内快速增长的短视频消费群体。据悉,新推出的广告形式将与现有应用内广告...
01:01
2025年12月10日,三木集团正式发布公告,宣布其全资子公司三木滨江将实施一项重要的资产处置计划。根据公告内容,三木滨江拟将位于福州市马尾区罗星街道济安支路1号的三木誉海大厦中的75套办公房地产整体出售给国利集团,此次交易的最终成交价格为2410.68万元。这一决策不仅标志着三木集团在资产运营方面迈出的新步伐,更体现了其在市场环境变化下的灵活应变策略。 此...
01:01
2025年12月11日,《科创板日报》独家披露了一项重量级科技合作:全球科技巨头Meta已正式启用阿里巴巴研发的通义千问大模型,以此为核心技术引擎,全面优化其最新一代人工智能模型。这项突破性合作标志着中美两国顶尖AI研发团队在技术层面的深度协同,合作重心聚焦于中国与美国的跨洋研发中心。 据悉,阿里巴巴方面为Meta提供了通义千问模型全方位的技术支持,重点协助...
00:01
12月10日深夜23时52分,日本青森县近海突发5.9级地震,震源深度仅30千米。日本气象厅紧急发布监测报告,确认此次地震未形成海啸,目前暂无人员伤亡及财产损失情况。尽管震级不算特别剧烈,但周边地区居民普遍感受到明显震感,部分区域甚至出现短暂停电现象。 此次地震属于典型的浅源地震,震中位于环太平洋地震带这一全球最活跃的地震带区域。该地带汇集了太平洋板块、欧亚...
00:01
Linux 6.19内核版本即将迎来一项重要更新,其中将正式移除备受争议的d_genocide()函数以及DCACHE_GENOCIDE宏。这两个组件自2023年首次引入以来,主要用于清理目录项及其所有子项,其代码由著名内核开发者Al Viro贡献。然而,由于函数名称"种族灭绝"的直白表述,引发了广泛的伦理质疑和社区讨论。尽管这些命名仅在内核源码内部可见,并...