AI日报：智谱开源百亿级视觉推理模型GLM-4.5V，达摩院推具身智能技术，360智脑亮出Light-IF系列模型

2025-08-12 17:20:54 AI动态 46 次阅读

欢迎来到【AI日报】栏目！这里是您每日探索人工智能世界的权威指南，我们为您精选并呈现AI领域的最新热点内容，始终聚焦开发者群体，助您洞悉前沿技术趋势，深入了解创新AI产品的实际应用。新鲜出炉的AI产品推荐，点击了解详情：https://top.aibase.com/1

智谱GLM-4.5V开源发布：全球100B级最佳视觉推理模型
智谱公司正式宣布推出并开源了全球参数量达100B且效果最佳的视觉推理模型GLM-4.5V，这一重要成果标志着该公司在迈向通用人工智能（AGI）的道路上迈出了坚实一步。AiBase特别提要：? GLM-4.5V总参数量高达106B，在41个视觉多模态榜单中均达到SOTA（State-of-the-Art）性能水平；? 该模型具备全场景视觉推理能力，涵盖图像推理、视频理解、GUI任务等多种应用场景；? 新增”思考模式”开关，可灵活平衡推理效率与效果；? API调用价格极具竞争力，输入成本仅为2元/M tokens，输出成本为6元/M tokens。

阿里达摩院开源三项具身智能核心技术
在世界机器人大会上，阿里达摩院隆重宣布开源三项自研的具身智能核心技术：VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一战略举措旨在推动数据、模型与机器人本体的兼容适配，为具身智能开发提供完整的解决方案。AiBase特别提要：? 开源的三项核心技术包括VLA模型、世界理解模型和机器人上下文协议；? RynnRCP实现了从传感器数据到机器人动作执行的完整工作流程；?️ RynnVLA-001从第一人称视角视频学习人类操作技能；? RynnEC从11个维度全面解析场景物体，无需依赖3D模型。详情链接：https://github.com/alibaba-damo-academy/RynnRCP

苹果即将升级 Apple Intelligence 至 GPT-5，推动 Siri 与写作工具智能化
苹果公司近日正式宣布，计划在即将发布的iOS26、iPadOS26和macOS Tahoe26系统更新中，将其Apple Intelligence中的ChatGPT核心模型升级至最新的GPT-5版本。这一重大升级将显著提升Siri、写作工具和视觉智能的整体性能。AiBase特别提要：? 苹果将在iOS26等系统更新中将ChatGPT模型升级至GPT-5，全面增强Siri、写作工具和视觉智能的功能；? 新版本将引入多语言实时翻译及屏幕内容分析功能，大幅提升设备在跨语言交流和信息处理方面的能力；? 苹果还首次向开发者开放设备端API，支持第三方应用接入，提供低延迟和高隐私的AI体验。

高德全面接入通义大模型推出首个地图AI原生Agent
阿里巴巴集团旗下高德地图联合通义实验室发布全球首个AI原生地图，正式推出”小高老师”智能体，实现全链路语音交互与复杂任务推理导航。AiBase特别提要：?️ 内置智能体”小高老师”，支持音频/文本等多模态交互，支持随时打断的全双工语音；? 基于36万亿token预训练的Qwen大模型，实现空间语义深度理解与高效调度近百种内部工具；?️ 联合推出复杂POI推理Agent，可拆解多重约束并整合实时信息，提供精准推荐与导航；? 依托自研DeepResearch框架，具备规划、反思、工具调用等完整Agent能力。

宇树科技将出征首届世界人形机器人运动会，硬件将被多队采用
宇树科技将于8月14日至17日参加首届世界人形机器人运动会。宇树公司透露，除其自有团队外，赛场上还将有多支队伍使用宇树机器人硬件参赛，但会搭配各自自研的算法。AiBase特别提要：? 除宇树自有团队外，赛场上还将有多个队伍使用宇树的机器人硬件参赛，但会搭配各自研发的算法；?️ 此次运动会汇聚了天工、加速进化、松延动力、傅利叶、星海图等国内头部人形机器人企业，以及来自美国、德国、澳大利亚、巴西、日本等16个国家的共计280支队伍；? 宇树科技的参与不仅展示了其在人形机器人硬件方面的实力，也体现了其设备在开放生态中的广泛应用和竞争力。

Claude AI推出历史对话记忆功能，支持多背景切换
Anthropic为Claude AI上线了”记忆功能”，可自动记忆并复用用户历史对话中的背景信息，实现跨会话无缝衔接，并支持多背景隔离切换，目前仅向付费用户开放。AiBase特别提要：? 支持为不同项目设定独立背景，工作/生活场景一键切换，保持上下文延续；? 先行面向Claude Max、Team、Enterprise付费用户，Pro版后续跟进，免费用户暂未开放；⚙️ 用户可在”设置—搜索和参考聊天”中手动启用或查看记忆内容；? 与ChatGPT手动预设不同，Claude采用自动提取机制，体验更”无感”但可控性稍弱。

360智脑推出Light-IF系列模型显著提升复杂指令遵循能力
360智脑发布Light-IF系列模型，以”预览-自检式推理+信息熵控制”框架专治”懒惰推理”，在四大基准测试中全面领先，小参数模型即可越级挑战大模型，并全部开源。AiBase特别提要：? 创新Light-IF框架:难度感知指令生成→Zero-RL强化→推理模式过滤→熵保持冷启动→熵自适应正则，显著抑制”只会复述不检查”的懒惰推理；? 权威评测霸榜:Light-IF-32B在SuperCLUE拿下0.575分，领先第二名13.9个百分点；Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型；? 全面开源:模型权重将陆续上线Hugging Face，冷启动数据集与训练代码同步发布GitHub，并联合SuperCLUE推出中文评测基准SuperCLUE-CPIFOpen。

字节跳动推出视频字幕无痕擦除方案基于DiT大模型打造
字节跳动发布全球首个基于DiT大模型的”视频字幕无痕擦除”方案，实现像素级修复、多语言适配、一键”擦除-翻译-口型同步”，助力短剧出海与跨境电商全球化。AiBase特别提要：?️ 两大核心:DiT视频字幕擦除大模型+字体级分割模型，像素级精准修复，告别马赛克/模糊/闪烁；? 多语言支持:突破中英限制，覆盖小语种，形成”擦除-翻译-口型同步”一站式闭环；⚙️ 工程落地:万集数据验证，成功率100%；分布式分镜计算，效率提升数倍。详情地址：https://console.volcengine.com/vod/

昆仑万维发布开源世界模型Matrix-Game2.0:实时生成分钟级高连贯视频
昆仑万维发布全球首个开源交互式世界模型Matrix-Game2.0，实时生成分钟级25fps高连贯视频，支持无语言提示的纯视觉驱动交互，已在GTA、Minecraft等场景落地。AiBase特别提要：? 开源首发:业内首个通用场景实时长序列开源世界模型，持续迭代全面开放；? 分钟级生成:25fps连续视频，物理规律与场景语义理解大幅提升，可直接用于游戏/影视/VR；? 视觉驱动交互:摒弃语言提示，3D因果VAE+多模态扩散Transformer逐帧响应用户动作，跨域适应多风格场景。

昆仑万维开源Matrix-3D大模型:用单张图像可生成高质量全景视频
昆仑万维开源Matrix-3D:单张图像即可生成360°可漫游3D全景视频，轨迹一致、几何精准，全面开放代码与数据集。AiBase特别提要：? 单图生成3D世界:打破多视角依赖，直接由单张图像产出高质量全景视频与可探索3D场景；? 轨迹引导一致性:用Mesh渲染图驱动扩散模型，保证相机轨迹下的时空一致，减少伪影与遮挡；⚙️ 双路径重建:超分+结构优化慢工出细活；Transformer前馈网络极速推理，兼顾质量与效率。详情：https://github.com/SkyworkAI/Matrix-3D