智谱开源GLM-4.6V系列:106B原生支持Function Call,9B轻量版免费商用

智谱科技正式宣布开源其新一代多模态大模型——GLM-4.6V系列,为开发者带来突破性的视觉交互体验。该系列包含高性能的基础版GLM-4.6V(总参数量106B,激活参数12B)与轻量化的GLM-4.6V-Flash(9B版本),全面升级了多模态处理能力,重新定义了”视觉感知到可执行行动”的完整技术链路。

新模型突破性提升上下文窗口至128k tokens,在视觉理解精度上达到同参数级别模型的SOTA水平。更创新性地将Function Call原生集成到视觉模型中,实现了从图像识别到API调用的无缝衔接,彻底打通了”视觉感知→可执行行动”的完整链路。在价格方面,API调用费用较GLM-4.5V下降50%,基础版输入成本为1元/百万tokens,输出成本为3元/百万tokens;轻量版GLM-4.6V-Flash完全免费,特别集成GLM Coding Plan与专用MCP工具,让开发者实现零成本商用部署。

技术亮点全面升级:128k多图长文处理能力
GLM-4.6V系列展现出惊人的多模态处理能力,单轮可同时处理30张高分辨率图片和8万字文本,在Video-MME、MMBench-Video等长视频理解基准测试中取得SOTA表现。这一突破性能力使模型能够高效处理复杂的多模态场景,为长视频理解应用打开了全新可能。

原生Function Call技术革新
通过原生Function Call功能,视觉信号可直接映射为可执行API,无需传统Projector中间环节,调用延迟降低37%,成功率提升18%。这一创新彻底改变了传统视觉模型需要经过”视觉→文本→Prompt”冗长链路的处理方式,大幅提升了交互效率。

统一编码架构优化
模型采用统一的Transformer编码架构,能够同时处理图像、视频和文本数据,在推理过程中实现动态路由,显存占用效率提升30%。这种创新设计既保证了处理精度,又优化了资源利用率,为大规模应用部署提供了坚实保障。

价格与授权策略灵活
针对不同需求场景,智谱科技制定了差异化的价格策略。轻量版GLM-4.6V-Flash完全免费开放,权重与商用License全部解禁,特别适合边缘设备部署和SaaS集成;基础版GLM-4.6V在保持高性能的同时,价格腰斩至原价一半,输入成本为1元/百万tokens,输出成本为3元/百万tokens,约为GPT-4V价格的1/4,大幅降低了企业应用门槛。

开发者工具生态完善
为加速开发者应用落地,智谱科技提供了一系列专用开发工具:
– 专用MCP(Model-Context-Protocol)工具:通过10行代码即可将GLM-4.6V接入VS Code、Cursor等开发环境,实现”框选UI→自动生成前端代码”的智能化开发体验
– GLM Coding Plan:提供50+场景模板(涵盖网页、小程序、脚本等多种应用形式),帮助开发者快速将视觉需求转化为可执行代码并自动部署
– 在线Playground:支持拖拽图片、实时调试Function Call,一键导出Python/Node.js调用片段,大幅缩短开发周期

基准测试成绩亮眼
在权威基准测试中,GLM-4.6V系列展现出卓越性能:
| 基准测试 | GLM-4.6V | GPT-4V | Gemini1.5Pro |
|———|———|——-|————-|
| Video-MME | 74.8% | 69.1% | 72.9% |
| MMBench-Video | 82.1% | 78.4% | 80.6% |
| LongVideoBench(128k) | 65.3% | 58.2% | 62.1% |

商用场景案例丰富
GLM-4.6V系列已在多个垂直领域展现强大应用价值:
– 影视预览:导演上传角色图+分镜后,系统能自动输出30秒预览视频,主体一致性高达96%
– 工业检测:通过拍摄设备面板自动识别异常区域,并调用维修API创建工单,大幅提升质检效率
– 教育课件:教师框选课本插图后,系统能生成3D动画+语音讲解,一键导出PPT,为教育信息化提供创新解决方案

开放路线规划清晰
从即日起,智谱科技已将GLM-4.6V系列的权重、推理代码和MCP工具全部开源,开发者可通过GitHub和Hugging Face平台获取(搜索GLM-4.6V)。未来计划包括:
– 2025年Q1:发布支持1M上下文窗口的版本与端侧INT4量化模型,实现笔记本CPU运行
– 2025年Q2:推出”视觉Agent Store”,让开发者可上架自定义Function Call并按调用量分成

行业观察视角
当多模态技术仍多停留在”看得懂”阶段时,智谱科技通过Function Call原生集成创新,实现了”看得懂+做得出”的突破性进展。这一创新让图片可直接触发API调用,省去了传统视觉→文本→Prompt的冗余链路,极大提升了应用效率。免费9B版本的战略布局有效降低了技术尝鲜门槛,而106B基础版价格腰斩的举措,则显示出智谱科技快速抢占视觉Agent生态的雄心。随着128k长视频理解能力的落地,影视、工业、教育等垂直场景有望率先实现规模化应用落地。AIbase将持续关注其端侧量化与Agent Store的进展,期待这一创新技术生态的进一步发展。

最新快讯

2025年12月09日

10:02
2025年12月8日,苹果公司正式推出一项创新工具包,旨在帮助全球开发者应对澳大利亚即将实施的未成年人社交媒体禁令。这项重要举措标志着苹果在平台治理领域的深度参与,也预示着全球年龄验证技术标准可能迎来重大变革。据悉,该禁令将于12月10日正式生效,届时所有社交平台将全面禁止为16岁以下用户提供账户服务。 此次苹果推出的核心工具是"声明年龄范围API",这一创...
10:02
2025年12月9日,LG电子震撼发布全新UltraGear OLED GX7电竞显示器(型号27GX790B-B),为游戏玩家带来前所未有的视觉盛宴。这款27英寸(26.5英寸可视区域)显示器搭载第四代WOLED面板,采用先进的自发光技术,实现极致的色彩表现与深邃的黑色层次。其核心亮点在于支持QHD 540Hz与HD 720Hz双模高刷切换,无论是追求极致...
10:02
2025年卡普空最新综合报告重磅发布,公司正式宣布将全面启动《洛克人》《鬼泣》《逆转裁判》等标志性经典系列的全新力作开发计划。作为卡普空首席运营官的辻本春弘在报告中强调,除了持续深耕现有核心IP外,公司将通过战略性的产品线扩充,以新作发布、经典重制以及经典游戏移植等多种形式,全方位提升品牌在全球市场的号召力与影响力。值得注意的是,尽管目前尚未公布任何具体项目...
09:33
近日,一段记录成都大熊猫繁育研究基地内熊猫宝宝们“聚餐”的趣味视频在网络上爆火,迅速吸引了全球网友的目光。视频中,这群幼年大熊猫围坐在一起享用美食,却展现出与常规认知截然不同的随性姿态,或仰卧或侧躺,憨态可掬的模样令人忍俊不禁。有的熊猫宝宝仰面朝天,将鲜嫩的竹笋举过头顶,慢条斯理地啃食;有的则侧身而卧,边咀嚼边发出满足的呼噜声,每一帧画面都充满了童真与欢乐。...
09:33
近日,知名网红“留几手”本名刘爽在社交平台上发布了一篇令人瞩目的动态,宣布他昨日发起的全球线上征婚活动取得了令人满意的成果。这一消息迅速引发了网友们的广泛关注和热议。回想起今年8月,宠物品牌博主葛夕曾在社交平台上公开展示离婚证,正式结束了与刘爽的婚姻关系。此次征婚,“留几手”对女方提出了独特且明确的要求,仅有一条核心标准:女方必须是一位女老板或女富婆,并且需...
09:32
12月7日,在冰城哈尔滨的街头,上演了一段令人忍俊不禁的温情插曲。一位男士带着妻子来到一家糖葫芦摊前,准备挑选心仪的甜点。摊主是一位和蔼可亲的大爷,他热情地招呼着顾客,却在介绍糖葫芦时,将两人误认为是一对父女。这一突如其来的误会,让原本平静的挑选过程瞬间充满了欢乐。男子和妻子先是愣了一下,随即被这有趣的场面逗得开怀大笑,脸上洋溢着幸福的笑容。这一温馨的瞬间被...
09:32
在这个寒冷的冬日里,一个充满爱心的故事在城市的每个角落悄然传开,感动了无数路人。故事的主人公是一位无儿无女的拾荒老人,他每天靠着一辆破旧的板车在街头巷尾艰难求生。这辆陪伴他二十年的板车,早已磨损严重,不仅难以承载沉重的拾荒物品,更让老人在崎岖的街道上步履维艰。 一位偶然路过的善良男子,目睹了老人每日拖着沉重的负担,在破旧板车上吃力前行的场景,心中充满了怜...
09:32
微新创想12月9日深度报道,近日上海内环高架内圈金沙江路下匝道附近发生一起令人揪心的交通安全事件。一名老人驾驶电动轮椅误入高架车道,其行为不仅违反交通法规,更对自身及过往车辆构成了严重的安全威胁。幸运的是,执勤民警及时发现并采取果断措施,成功化解了一场潜在的交通事故。 接到警情后,巡逻民警迅速反应,立即驾驶警用摩托车在老人电动轮椅外侧形成安全防护屏障。在确保...
09:25
OpenAI近日发布了一项覆盖9000名员工的大规模调研报告,揭示了一项令人瞩目的发现:借助AI工具,职场人士平均每天可节省40至60分钟的专业工作时间。这一显著的时间红利在数据科学、工程、传播和会计等职业领域尤为突出,充分证明了AI技术的实用价值。调查数据显示,高达75%的受访者明确表示,AI不仅大幅提升了工作效率,更在输出质量上实现了质的飞跃。 在AI技...
09:25
北京时间12月9日,备受瞩目的消息传来:美国商务部正式批准英伟达向中国特定客户出口其尖端AI芯片H200。这一决定不仅意味着英伟达高端GPU产品线时隔数月后重新叩开中国市场的大门,更标志着中美科技贸易关系迎来新的转折点。值得注意的是,美国政府将从相关销售中收取25%的分成,这一条款为此次交易增添了复杂的商业考量。 美国总统特朗普通过其社交媒体平台迅速公开宣布...
09:25
智谱今日重磅宣布,正式开源其核心 AI Agent 模型 AutoGLM,这一革命性智能体具备"Phone Use"能力,能够精准稳定地完成外卖点单、机票预订等长达数十步的复杂手机操作流程。开源战略意味着任何硬件厂商、手机品牌或开发者,都可在自身系统中复现一个能"看懂屏幕"、模拟真人操作的 AI 助手,彻底打破技术壁垒。 AutoGLM 已成功覆盖微信、淘宝...
09:25
12月9日清晨,多家广告代理商向《Adweek》透露了谷歌的一项重大计划。据内部通话内容显示,谷歌将在2026年于Gemini AI聊天机器人内上线广告功能,形式包括对话回复中的品牌卡片和可点击外链。这一举措将与今年3月推出的“AI Mode搜索广告”并行存在,共同构建谷歌AI广告生态。 买家口径:时间表、定价、原型均未定 至少两家大型广告代理商确认已收到谷...