Salesforce与南加州大学的研究团队联合研发了一项名为CoAct-1的革命性技术,该技术通过巧妙融合编码指令与图形用户界面(GUI)操作的独特优势,显著增强了AI代理在复杂计算机任务中的执行能力。这一创新混合方法旨在突破传统GUI代理的局限性,为构建更强大、更具扩展性的自动化系统开辟新路径。传统AI代理的困境:效率与稳定性的双重挑战当前计算机AI代理普遍依赖视觉语言模型(VLM)来解析屏幕内容并模拟鼠标键盘操作。尽管这类”点击式”代理能够胜任多种任务,但在处理办公生产力套件等具有密集菜单和复杂工作流程的应用时,其表现往往不尽如人意。研究团队发现,在这些场景中,微小的误点击或对UI元素的误解都可能导致整个任务功亏一篑。为了弥补这一缺陷,研究人员曾尝试引入高级规划器来优化GUI代理,但该方法仍无法解决那些通过几行代码就能更直接、更可靠完成的操作。CoAct-1:多智能体协作的混合解决方案为克服上述局限,CoAct-1系统应运而生。其核心设计理念在于”将GUI操作的直观性优势与通过代码进行系统交互的精确性、可靠性和效率有机结合”。该系统由三个功能各异的代理组成的专业团队协作完成复杂任务:编排器(Orchestrator):作为中央指挥中心,负责将用户的总体目标分解为可执行的子任务,并智能分配给最合适的代理成员。程序员(Programmer):精通Python或Bash脚本编写,专注于处理文件管理、数据处理等需要精确系统交互的后端操作。GUI操作员(GUI Operator):基于VLM技术,专门负责需要点击按钮、填写表单等前端界面交互任务。这种动态协作机制使CoAct-1能够智能地选择最合适的执行方式——当GUI操作效率低下时,系统会无缝切换到代码执行模式,同时保留必要的视觉交互能力。整个工作流程采用迭代式设计,每个代理完成子任务后都会向编排器汇报进展,由其决定后续行动方案。性能突破:速度与效率的双重飞跃研究人员在OSWorld基准测试中全面评估了CoAct-1的性能,该基准涵盖了369个跨浏览器、IDE和办公应用程序的实际任务场景。测试结果显示,CoAct-1以60.76%的成功率创下了新的行业最高纪录。特别是在操作系统级任务和多应用程序工作流整合场景中,其性能提升尤为突出。更令人瞩目的是,该系统平均只需10.15步即可完成任务,而其他领先纯GUI代理通常需要15.22步。研究团队强调,更少的操作步骤不仅显著提高了任务完成速度,更大幅降低了出错概率,从而实现了更高效、更可靠的自动化体验。从实验室走向企业:广阔的应用前景与实施挑战这项技术蕴含着巨大的企业应用价值。Salesforce应用AI研究总监Ran Xu指出,客户支持、销售勘探、自动化簿记和营销活动管理等领域都是CoAct-1的理想应用场景。在这些场景中,企业通常需要同时处理有API接口和无API接口的多种工具,而CoAct-1能够灵活整合代码与屏幕交互能力,提供全方位的自动化解决方案。然而,将CoAct-1从实验室环境推向企业实际应用仍面临诸多挑战,包括如何兼容遗留软件系统、确保操作安全性以及建立必要的人工监督机制。徐博士强调,需要通过在沙盒环境中进行充分训练来提升代理的适应能力,并构建完善的访问控制体系和安全防护措施,防止潜在的安全风险。从长远来看,在可预见的未来,”人在环”的协作模式将是确保AI代理安全可靠运行的关键保障。
最新快讯
2025年08月14日
近日,山东一名23岁的大学生小黄在高铁站上演了一场令人啼笑皆非的"囧途"故事,迅速引发网友热议。小黄目前就读于长沙某高校研二,河北廊坊是他的家乡。8月9日晚上,小黄和朋友们在江苏盐城大丰站参加完一场聚会后,准备乘坐高铁前往北京南站,再转车回家。聚会时,小黄特意留下了一瓶未喝完的五粮液,打算带回家慢慢品味。然而,当他带着这瓶已经开封的白酒准备过安检时,工作人员...
2025年8月14日,新莱应材通过官方互动平台发布重要信息,就公司液冷业务的发展现状及未来规划进行详细说明。公司方面明确指出,当前液冷相关业务仍处于市场拓展的初期阶段,整体发展存在一定的不确定性,因此特别提醒广大投资者需密切关注相关风险。尽管面临市场挑战,新莱应材表示将持续深入跟踪数据中心液冷技术的最新发展趋势,通过持续的产品创新和技术适配,不断提升产品竞争...
中威电子(300270)于8月14日正式发布其2025年半年财务报告,数据显示公司在上半年的经营状况面临严峻挑战。报告显示,公司营业收入仅为3775.88万元,与去年同期相比出现了高达44.13%的显著下滑。更为严峻的是,归属于上市公司股东的净利润录得亏损3908.28万元,虽然亏损额较去年同期的3860.92万元仅微幅扩大,但营收的急剧下滑已严重影响了公司...
8月14日,北特科技正式发布其2025年半年财务报告,数据显示公司上半年整体表现亮眼。报告显示,公司实现营业收入总额达11.13亿元,相较于去年同期增长14.71%,展现出稳健的发展态势。在盈利能力方面,归母净利润达到5500.05万元,同比增长幅度高达45.14%,这一成绩显著超越了行业平均水平,彰显了公司强大的市场竞争力与盈利能力。
公司管理层在财报发布...
捷邦科技近日在官方互动平台发布重要进展,宣布其液冷散热模组业务已正式启动客户产品导入计划。作为公司战略布局的关键一环,该业务目前仍处于前期推进阶段,尚未实现营收转化。不过捷邦科技强调,团队正全力以赴加速项目进程,通过优化供应链与提升技术适配性,力求在短期内达成与核心客户的批量合作。公司内部人士透露,液冷散热模组凭借其高效能、低噪音的优异特性,已获得多个行业头...
8月14日,万里马传来振奋人心的消息,正式公告中标2025至2026年度南航综合保障部空勤箱包采购项目,预计合同金额高达4383.5万元人民币。这一重要成果不仅彰显了万里马在航空配套物资供应领域的卓越实力,更标志着公司业务版图在该领域的深度拓展。
此次成功中标,是基于评标委员会严谨公正的评审结果以及未来采购需求的科学预测。作为国内领先的航空箱包供应商,万里马...
2025年8月14日,港股市场收盘时呈现震荡态势。恒生指数最终报收25519.32点,微跌0.37个百分点,而恒生科技指数则遭遇重挫,跌幅达到0.97%。市场整体表现疲软,科技板块普遍承压。其中,联想集团股价表现尤为疲软,单日跌幅接近6%,成为科技股中的重灾区。与之形成鲜明对比的是医药板块的强势崛起,晶泰控股股价逆势上涨,涨幅超过11%,成为当日市场亮点。这...
2025年8月13日,备受瞩目的政企合作交流活动在郑州市隆重举行。绿地集团董事长张玉良一行专程拜访郑州市市长庄建球,双方围绕深化政企合作、加速重大项目推进以及数字科技应用等关键议题展开了深入而富有成效的会谈。此次会晤不仅彰显了政企双方携手共进的决心,更旨在通过强化战略合作关系,为郑州重点项目的突破性进展注入强劲动力。郑州市副市长王鸿勋等当地政府领导亦出席了此...
腾讯近期震撼发布其自主研发的Hunyuan-GameCraft框架,这一突破性开源工具彻底革新了游戏开发模式,能够从单张静态图像和用户操作指令中实时生成可交互的游戏视频。作为腾讯HunyuanVideo技术的最新结晶,该框架的核心创新在于将二维场景转化为具备完整物理引擎的动态游戏体验。开发者只需提供一张场景素材,系统即可自动构建支持键盘、鼠标等操作的完整游戏...
AIbase最新消息,阿里巴巴旗下核心源头厂货平台1688即将于8月20日举办一场备受瞩目的产品发布会,正式揭开全新商家会员产品——“诚信通AI版”的神秘面纱。这款划时代的产品不仅将重新定义电商商家服务标准,更预示着1688在智能化转型道路上迈出关键一步。据悉,该产品计划于2025年10月全面上线,届时所有新入驻商家将必须开通AI版才能入驻成功,而现有的诚信...
近年来人工智能在内容生成领域的应用不断深化,其中PPT生成技术正成为AI技术竞争的新焦点。根据权威科技媒体AIbase最新报道,Moonshot AI旗下旗舰模型Kimi即将推出基于强大K2模型驱动的全球版PPT生成功能,这一创新举措迅速引发行业内外的高度关注。得益于Kimi K2在代码生成、数学推理和Agent任务处理方面的卓越能力,这款新功能有望彻底改变...
字节跳动在人工智能领域的创新步伐再次提速,正式发布了其最新研发的AI模型——M3-Agent-Control。这款尖端模型的推出,不仅彰显了字节跳动在人工智能技术前沿的领先地位,更彰显了其推动智能技术开放共享、赋能各行业发展的坚定决心。M3-Agent-Control的问世,为全球开发者和企业开辟了更广阔的技术应用空间,有望在智能化浪潮中扮演关键角色。
M3...