
微新创想:谷歌承诺已久的 AI 愿景正随着最新功能的发布正式照进现实。今日,谷歌联合多家应用开发商宣布,基于 Gemini 的“任务自动化”功能已进入 Beta 测试阶段。这一功能标志着 AI 助手从单纯的“信息查询员”转型为具备跨应用执行能力的“数字代办”,能够模拟人类操作完成订餐、打车等复杂流程。
视觉震撼:与传统的 API 对接方式不同,谷歌的自动化功能是在一个虚拟窗口中模拟真实的用户操作。这种直观的交互方式让用户能够更清晰地看到 AI 的执行过程,增强了信任感和操作透明度。
智能打车:当你给出“打车去机场”的指令,系统会自动唤起 Uber,确认具体的航站楼(如遇多航站楼会主动询问),并自动填入目的地。整个流程无需用户手动输入,极大提升了出行效率。
代订餐食:在处理“帮我点一杯咖啡和牛角包”的指令时,AI 会自主划动屏幕寻找星巴克菜单中的特定单品(如 Flat White),甚至能像人类一样处理复杂的滚动选择。这种高度拟人化的操作方式,让日常任务变得更加轻松。

安全逻辑:关键节点,人类掌舵。为了规避自主权带来的风险,谷歌在自动化流程中设置了严密的人工复核机制。用户可以实时观看 AI 的每一步动作,并随时通过“Take control”接管或终止自动化进程。
最后确认制:在最终提交订单或付款前,系统会强制停在支付界面,等待用户核实明细并手动点击“确认”,确保每一笔交易都在受控状态下完成。这种设计既保障了安全性,也提升了用户的操作体验。
目前,该功能已优先适配外卖配送与网约车类应用。对于普通用户及后续用户而言,手机不再仅仅是运行 App 的载体,而是一个能够理解自然语言意图并将其转化为具体操作的“超级代理”。
尽管 AI 在菜单滚动和选项识别上偶尔还显得有些“笨拙”,但这种无需 API 深度适配、直接基于 UI 交互的自动化模式,极大地拓宽了 AI 助手的应用边界。随着算法的不断迭代,我们正在告别“在 App 丛林中反复横跳”的时代,进入“一句话完成所有琐事”的真智能阶段。
