
谷歌近期正式发布了备受期待的全新 AI 模型——Gemini2.5Computer Use,这款创新模型的核心突破在于赋予 AI 代理在浏览器环境中自主导航和交互网页的能力。通过深度融合先进的视觉理解与推理技术,Gemini2.5Computer Use 能够精准解析人类用户的复杂指令,并在传统为人类用户优化的交互界面中完成高难度的操作任务,例如智能填写并提交各类表单。这一技术突破标志着 AI 代理发展进入全新阶段,使原本需要人工干预的复杂任务得以自动化处理。
AI 代理技术的应用前景极为广阔,其核心价值体现在两大应用场景:一是高效执行 UI 测试,确保用户界面设计的稳定性和兼容性;二是为缺乏 API 接口或直接数据连接的用户提供智能网页导航服务。值得注意的是,该模型的早期版本曾作为核心技术参与 Mariner 项目,该项目通过 AI 代理在浏览器中自主完成多项任务,例如根据商品配料清单自动将所需商品添加至购物车。这一创新成果的发布恰逢 AI 代理功能竞争日趋激烈的行业背景下,与 OpenAI 近期推出的 ChatGPT 新应用及其 Agent 功能形成直接竞争,而 Anthropic 去年发布的 Claude AI 模型同样具备”计算机使用”功能,三者共同推动着 AI 代理技术的快速迭代。

在性能表现方面,谷歌宣称 Gemini2.5Computer Use 在多项网络和移动基准测试中均超越主流竞争对手,展现出卓越的智能化水平。然而该模型目前存在明显局限性——与能够控制整个计算机环境的 ChatGPT Agent 和 Anthropic 类似工具不同,Gemini2.5Computer Use 仅限于浏览器环境操作,无法实现对计算机系统的全面控制。谷歌特别指出,该模型尚未针对桌面操作系统进行优化,当前支持的功能包括打开网络浏览器、文本输入以及元素拖放等基础操作,这些功能覆盖了日常网页交互的核心需求。
对于技术开发者和研究人员,谷歌提供了 Google AI Studio 和 Vertex AI 两大平台供其体验 Gemini2.5Computer Use 的全部功能。而对于普通用户和科技爱好者,Browserbase 网站提供了丰富的演示案例,用户可以直观观察该模型完成包括”玩 2048 游戏”和”浏览 Hacker News 获取热门辩论信息”等多样化任务,这些演示生动展示了 AI 代理在真实场景中的应用潜力。
