谷歌Gemini2.5AI代理看懂网页交互能力突破

2025-10-08 12:37:39 AI动态 40 次阅读

谷歌近期正式发布了备受期待的全新 AI 模型——Gemini2.5Computer Use，这款创新模型的核心突破在于赋予 AI 代理在浏览器环境中自主导航和交互网页的能力。通过深度融合先进的视觉理解与推理技术，Gemini2.5Computer Use 能够精准解析人类用户的复杂指令，并在传统为人类用户优化的交互界面中完成高难度的操作任务，例如智能填写并提交各类表单。这一技术突破标志着 AI 代理发展进入全新阶段，使原本需要人工干预的复杂任务得以自动化处理。

AI 代理技术的应用前景极为广阔，其核心价值体现在两大应用场景：一是高效执行 UI 测试，确保用户界面设计的稳定性和兼容性；二是为缺乏 API 接口或直接数据连接的用户提供智能网页导航服务。值得注意的是，该模型的早期版本曾作为核心技术参与 Mariner 项目，该项目通过 AI 代理在浏览器中自主完成多项任务，例如根据商品配料清单自动将所需商品添加至购物车。这一创新成果的发布恰逢 AI 代理功能竞争日趋激烈的行业背景下，与 OpenAI 近期推出的 ChatGPT 新应用及其 Agent 功能形成直接竞争，而 Anthropic 去年发布的 Claude AI 模型同样具备”计算机使用”功能，三者共同推动着 AI 代理技术的快速迭代。

在性能表现方面，谷歌宣称 Gemini2.5Computer Use 在多项网络和移动基准测试中均超越主流竞争对手，展现出卓越的智能化水平。然而该模型目前存在明显局限性——与能够控制整个计算机环境的 ChatGPT Agent 和 Anthropic 类似工具不同，Gemini2.5Computer Use 仅限于浏览器环境操作，无法实现对计算机系统的全面控制。谷歌特别指出，该模型尚未针对桌面操作系统进行优化，当前支持的功能包括打开网络浏览器、文本输入以及元素拖放等基础操作，这些功能覆盖了日常网页交互的核心需求。

对于技术开发者和研究人员，谷歌提供了 Google AI Studio 和 Vertex AI 两大平台供其体验 Gemini2.5Computer Use 的全部功能。而对于普通用户和科技爱好者，Browserbase 网站提供了丰富的演示案例，用户可以直观观察该模型完成包括”玩 2048 游戏”和”浏览 Hacker News 获取热门辩论信息”等多样化任务，这些演示生动展示了 AI 代理在真实场景中的应用潜力。

2025年11月28日

19:01

谷歌Gemini2.5AI代理看懂网页交互能力突破

最新快讯

2025年11月28日

胜科纳米5亿投建青岛检测项目提升半导体检测分析能力

贝达药业恩沙替尼获欧洲受理有望治疗ALK阳性肺癌

M&M’S上海迪士尼小镇新店2026开业购物餐饮娱乐一体沉浸体验

美团Q3核心本地商业巨亏141亿同比由盈转亏

海特生物参股ZM-02眼用注射液获FDA临床试验批准迈向国际

泰恩康子公司获巴瑞替尼片注册证开拓自身免疫疾病治疗市场

首旅如家引入煮面机器人提升早餐效率

昂利康恩格列净二甲双胍缓释片获注册证丰富糖尿病治疗选择

全球存储芯片短缺加剧多家美企或提价应对AI需求

新疆首单火电ABS成功发行引领基础设施融资创新

2025年10月中国货物贸易顺差6413亿元进出口分析

华阳股份七元煤业正式投产年产能达500万吨