
谷歌于本周四正式推出基于尖端基础模型Gemini3Pro的”重新构想”版Gemini Deep Research研究代理,这一创新智能体不仅继承了生成专业报告的核心能力,更通过全新的交互API实现了历史性突破——允许开发者将谷歌的SATA模型研究功能无缝嵌入自有应用程序,为开发者提供了前所未有的AI控制权与定制空间。
功能升级与广泛应用

这款智能代理具备整合海量信息并处理复杂提示中大量上下文数据的能力。谷歌披露,该工具已广泛应用于企业尽职调查、药物毒性安全研究等多个专业领域,充分展现了其在实际工作场景中的巨大价值。值得关注的是,谷歌宣布将把这款深度研究代理集成到旗下多项核心服务中,包括谷歌搜索、谷歌财经、Gemini应用以及广受欢迎的NotebookLM,这一战略布局预示着谷歌正在加速推进AI代理全面替代人类执行搜索任务的未来愿景。
技术突破:对抗AI幻觉
谷歌特别强调,Deep Research得益于被誉为”最真实”的Gemini3Pro模型。该模型经过针对性训练,在执行复杂任务时能有效降低幻觉现象发生率。AI幻觉即大语言模型随意编造信息,对于需要长时间自主决策的深度推理任务尤为致命——哪怕只有一个虚假选项,也可能导致整个输出结果作废。谷歌通过技术创新显著提升了AI的可靠性。

基准测试表现为证明技术进展
为客观评估性能,谷歌创建了DeepSearchQA新基准测试并已开源,专门检验智能体在复杂多步骤信息检索任务中的表现。同时测试了”人类最后考试深度研究”(Humanity’s Last Exam)这一通用知识基准测试,以及基于浏览器的智能体任务基准测试BrowserComp。测试结果显示,谷歌新智能体在自研基准测试和Humanity基准测试中表现优异,击败了主要竞争对手。不过OpenAI的ChatGPT5Pro表现令人惊喜,在所有测试项目中紧随其后,并在BrowserComp测试中略胜一筹。
市场竞争白热化

但这些对比很快被新的动态刷新。就在同一天,OpenAI发布了备受期待的GPT5.2(代号Garlic)。OpenAI宣称,其最新模型在多项典型基准测试中均超越竞争对手,尤其在与谷歌的对比中表现突出。此次发布最引人注目的莫过于其精准的发布时机——谷歌选择同步揭晓AI新消息,这一微妙操作凸显了科技巨头间在AI领域的白热化竞争态势。
