Salesforce南加大联手CoAct-1代码GUI混合AI代理自动化再突破

2025-08-13 11:12:20 AI动态 77 次阅读

Salesforce与南加州大学的研究团队联合研发了一项名为CoAct-1的革命性技术，该技术通过巧妙融合编码指令与图形用户界面（GUI）操作的独特优势，显著增强了AI代理在复杂计算机任务中的执行能力。这一创新混合方法旨在突破传统GUI代理的局限性，为构建更强大、更具扩展性的自动化系统开辟新路径。传统AI代理的困境：效率与稳定性的双重挑战当前计算机AI代理普遍依赖视觉语言模型（VLM）来解析屏幕内容并模拟鼠标键盘操作。尽管这类”点击式”代理能够胜任多种任务，但在处理办公生产力套件等具有密集菜单和复杂工作流程的应用时，其表现往往不尽如人意。研究团队发现，在这些场景中，微小的误点击或对UI元素的误解都可能导致整个任务功亏一篑。为了弥补这一缺陷，研究人员曾尝试引入高级规划器来优化GUI代理，但该方法仍无法解决那些通过几行代码就能更直接、更可靠完成的操作。CoAct-1：多智能体协作的混合解决方案为克服上述局限，CoAct-1系统应运而生。其核心设计理念在于”将GUI操作的直观性优势与通过代码进行系统交互的精确性、可靠性和效率有机结合”。该系统由三个功能各异的代理组成的专业团队协作完成复杂任务：编排器（Orchestrator）：作为中央指挥中心，负责将用户的总体目标分解为可执行的子任务，并智能分配给最合适的代理成员。程序员（Programmer）：精通Python或Bash脚本编写，专注于处理文件管理、数据处理等需要精确系统交互的后端操作。GUI操作员（GUI Operator）：基于VLM技术，专门负责需要点击按钮、填写表单等前端界面交互任务。这种动态协作机制使CoAct-1能够智能地选择最合适的执行方式——当GUI操作效率低下时，系统会无缝切换到代码执行模式，同时保留必要的视觉交互能力。整个工作流程采用迭代式设计，每个代理完成子任务后都会向编排器汇报进展，由其决定后续行动方案。性能突破：速度与效率的双重飞跃研究人员在OSWorld基准测试中全面评估了CoAct-1的性能，该基准涵盖了369个跨浏览器、IDE和办公应用程序的实际任务场景。测试结果显示，CoAct-1以60.76%的成功率创下了新的行业最高纪录。特别是在操作系统级任务和多应用程序工作流整合场景中，其性能提升尤为突出。更令人瞩目的是，该系统平均只需10.15步即可完成任务，而其他领先纯GUI代理通常需要15.22步。研究团队强调，更少的操作步骤不仅显著提高了任务完成速度，更大幅降低了出错概率，从而实现了更高效、更可靠的自动化体验。从实验室走向企业：广阔的应用前景与实施挑战这项技术蕴含着巨大的企业应用价值。Salesforce应用AI研究总监Ran Xu指出，客户支持、销售勘探、自动化簿记和营销活动管理等领域都是CoAct-1的理想应用场景。在这些场景中，企业通常需要同时处理有API接口和无API接口的多种工具，而CoAct-1能够灵活整合代码与屏幕交互能力，提供全方位的自动化解决方案。然而，将CoAct-1从实验室环境推向企业实际应用仍面临诸多挑战，包括如何兼容遗留软件系统、确保操作安全性以及建立必要的人工监督机制。徐博士强调，需要通过在沙盒环境中进行充分训练来提升代理的适应能力，并构建完善的访问控制体系和安全防护措施，防止潜在的安全风险。从长远来看，在可预见的未来，”人在环”的协作模式将是确保AI代理安全可靠运行的关键保障。

2025年11月28日

13:39

Salesforce南加大联手CoAct-1代码GUI混合AI代理自动化再突破

最新快讯

2025年11月28日

20岁男子频繁挖鼻孔致脸肿医生：丹毒感染风险高

商汤科技捐300万港元支援香港大埔火灾救援重建家园

凯宾美食廊亮马河畔全新升级开业 33年经典焕新体验

生态环境部央行筹建绿色投融资指导委员会推动绿色发展合作创新

韩国26万块GPU采购计划启动推动AI生态建设

AMD R9700S R9600D新显卡支持页面曝光或将亮相CES 2026

谷歌Pixel Watch步行距离测量严重偏差问题曝光

国家能源局启动“人工智能+”能源试点推动行业智能化升级

On昂跑亮相2025上海体博会展示未来跑鞋科技

中科院研制16.5特斯拉大口径超导磁体创纪录

M&M’S全新门店2026年初登陆上海迪士尼度假区分享更多惊喜

谷歌凭据恢复API改善安卓换机体验自动登录