

Salesforce与南加州大学的研究团队联合研发了一项名为CoAct-1的革命性技术,该技术通过巧妙融合编码指令与图形用户界面(GUI)操作的独特优势,显著增强了AI代理在复杂计算机任务中的执行能力。这一创新混合方法旨在突破传统GUI代理的局限性,为构建更强大、更具扩展性的自动化系统开辟新路径。传统AI代理的困境:效率与稳定性的双重挑战当前计算机AI代理普遍依赖视觉语言模型(VLM)来解析屏幕内容并模拟鼠标键盘操作。尽管这类”点击式”代理能够胜任多种任务,但在处理办公生产力套件等具有密集菜单和复杂工作流程的应用时,其表现往往不尽如人意。研究团队发现,在这些场景中,微小的误点击或对UI元素的误解都可能导致整个任务功亏一篑。为了弥补这一缺陷,研究人员曾尝试引入高级规划器来优化GUI代理,但该方法仍无法解决那些通过几行代码就能更直接、更可靠完成的操作。CoAct-1:多智能体协作的混合解决方案为克服上述局限,CoAct-1系统应运而生。其核心设计理念在于”将GUI操作的直观性优势与通过代码进行系统交互的精确性、可靠性和效率有机结合”。该系统由三个功能各异的代理组成的专业团队协作完成复杂任务:编排器(Orchestrator):作为中央指挥中心,负责将用户的总体目标分解为可执行的子任务,并智能分配给最合适的代理成员。程序员(Programmer):精通Python或Bash脚本编写,专注于处理文件管理、数据处理等需要精确系统交互的后端操作。GUI操作员(GUI Operator):基于VLM技术,专门负责需要点击按钮、填写表单等前端界面交互任务。这种动态协作机制使CoAct-1能够智能地选择最合适的执行方式——当GUI操作效率低下时,系统会无缝切换到代码执行模式,同时保留必要的视觉交互能力。整个工作流程采用迭代式设计,每个代理完成子任务后都会向编排器汇报进展,由其决定后续行动方案。性能突破:速度与效率的双重飞跃研究人员在OSWorld基准测试中全面评估了CoAct-1的性能,该基准涵盖了369个跨浏览器、IDE和办公应用程序的实际任务场景。测试结果显示,CoAct-1以60.76%的成功率创下了新的行业最高纪录。特别是在操作系统级任务和多应用程序工作流整合场景中,其性能提升尤为突出。更令人瞩目的是,该系统平均只需10.15步即可完成任务,而其他领先纯GUI代理通常需要15.22步。研究团队强调,更少的操作步骤不仅显著提高了任务完成速度,更大幅降低了出错概率,从而实现了更高效、更可靠的自动化体验。从实验室走向企业:广阔的应用前景与实施挑战这项技术蕴含着巨大的企业应用价值。Salesforce应用AI研究总监Ran Xu指出,客户支持、销售勘探、自动化簿记和营销活动管理等领域都是CoAct-1的理想应用场景。在这些场景中,企业通常需要同时处理有API接口和无API接口的多种工具,而CoAct-1能够灵活整合代码与屏幕交互能力,提供全方位的自动化解决方案。然而,将CoAct-1从实验室环境推向企业实际应用仍面临诸多挑战,包括如何兼容遗留软件系统、确保操作安全性以及建立必要的人工监督机制。徐博士强调,需要通过在沙盒环境中进行充分训练来提升代理的适应能力,并构建完善的访问控制体系和安全防护措施,防止潜在的安全风险。从长远来看,在可预见的未来,”人在环”的协作模式将是确保AI代理安全可靠运行的关键保障。


