美团 LongCat 团队近日重磅发布了一项创新性评测基准——VitaBench,专为多交互任务设计,尤其聚焦于复杂生活场景的实际应用。这一重要基础设施的推出,为智能体在真实环境中的研发提供了关键支撑,标志着智能体技术迈向实用化的重要一步。

VitaBench 精准定位外卖点餐、餐厅就餐和旅游出行等高频真实场景,构建了一个包含66个工具的交互式评测环境。评测任务设计覆盖了从购票到餐厅预订等一系列复杂操作,要求智能体在任务执行过程中展现出深度推理、工具调用与用户互动的综合能力。尽管当前领先的推理模型已取得显著进展,但 LongCat 团队的研究数据显示,智能体在复杂跨场景任务中的成功率仍不足30%,凸显出技术与实际应用需求之间的巨大鸿沟。VitaBench 的问世正是为了填补这一空白,为智能体评测领域树立新标杆。

美团LongCat发布VitaBench智能体评测基准 推动真实场景应用插图

该基准的设计基于对推理复杂性、工具复杂性和交互复杂性的三维深度分析。团队通过将这些维度进行量化,系统化地衡量智能体在真实场景中的表现。具体而言,推理复杂度主要通过信息整合需求、观察空间大小以及所需处理推理点的数量来评估;工具复杂度则综合考虑工具的依赖关系与调用链长度;交互复杂度则重点关注智能体在多轮对话中的应变能力。这种多维度的评测体系,能够更全面地反映智能体在真实场景中的实际表现。

VitaBench 的构建过程分为两个关键阶段:首先是框架设计工具定义,其次是任务创建与评估标准制定。这一严谨的流程确保了任务的多样性和复杂性,同时突破了传统文档模式的局限性,使智能体能够在没有冗余规则的情况下,自主进行推理和决策,更贴近真实应用场景。

美团LongCat发布VitaBench智能体评测基准 推动真实场景应用插图1

目前,VitaBench 已全面开源,研究人员和开发者可通过其官方网站和 GitHub 平台免费访问相关资源。这一开放姿态将极大地促进智能体技术的交流与合作,加速其在真实生活场景中的应用与发展。VitaBench 的发布不仅标志着智能体评测领域的重要里程碑,更预示着智能体技术将迎来新一轮的突破与创新。

项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/abs/2509.26490
代码仓库:https://github.com/meituan-longcat/vitabench
数据集:https://huggingface.co/datasets/meituan- longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard

最新快讯

2025年10月21日

19:01
微软近期发布了详尽的技术文档,针对用户在驱动更新过程中常见的疑问进行专业解答。官方明确指出,驱动程序作为连接硬件与操作系统的关键"翻译器",其更新日期并不直接反映技术的新旧程度——设备供应商可以根据自身需求自主设定描述性日期,而Windows系统则会通过智能算法自动筛选并推送最优版本。 针对部分用户反映的"重复驱动"现象,微软给出了技术层面的解释。这实际...
19:01
今日至明日凌晨,我们将迎来年度猎户座流星雨的盛况,其极大期预计将在21日21时左右达到峰值。这是一个观测流星雨的绝佳时机,因为恰逢农历初一,夜空中没有月光的干扰,视野将更加清晰明亮,为天文爱好者提供了理想的观测条件。 猎户座流星雨虽然属于中小规模的流星雨,其天顶流量相对有限,但它的持续时间较长,每年都会吸引大量天文爱好者的目光。这场流星雨的美丽景象源自哈雷彗...
19:01
近日,专注于机器人具身智能场景化解决方案的领先企业飞阔科技成功完成数千万天使+轮融资。本轮融资由知名投资机构容亿投资领投,慕华科创与智元资本联合参与投资,充分彰显了资本市场对飞阔科技创新实力与发展前景的高度认可。 作为致力于推动机器人具身智能技术落地应用的创新企业,飞阔科技凭借自主研发的FLY・天枢系统,在多个应用场景中展现出卓越的技术实力。该系统通过深度融...
19:01
2025年9月22日,长征八号甲运载火箭的核心动力装置——YF-75DB氢氧发动机,成功完成了关键的鉴定试车。此次试车不仅进行了多次点火测试,更全面覆盖了四倍工作循环及多种复杂工况,旨在系统性地验证发动机在极端环境下的综合性能与长期可靠性。整个试车过程由中国航天科技集团精心组织,在集团所属的国家级试验基地严格实施。通过这一系列高标准的测试验证,YF-75DB...
19:01
美国航天局近日宣布一项重大决策,因SpaceX在月球着陆器研发进度上遭遇瓶颈,决定重新开放“阿耳忒弥斯3号”任务着陆器合同的竞标资格。代理局长肖恩·达菲在官方声明中强调,此举的核心目标是确保备受瞩目的载人登月任务能够按计划顺利推进,同时为更多商业航天企业提供公平的竞争机会。原合同由SpaceX独家负责开发星舰人类着陆系统,但近期暴露出的进度滞后问题促使NAS...
19:01
2025年10月21日,瀚蓝环境正式对外宣布终止与多家机构共同设立的桂瀚基金合作。据悉,该基金由瀚蓝环境联合广东高成长企业股权投资管理有限公司等多方共同出资组建,自完成备案手续以来,始终未能开展任何实质性投资活动。经过全体合伙人大会的慎重决议,所有参与方一致同意启动基金解散清算程序,并最终完成基金注销手续。 此次基金清算的主要原因是基金自设立以来长期处于闲置...
19:01
2025年10月21日,香港交易所迎来一则重要公告,来自新世界发展集团。该公司正式对外澄清,近期市场盛传的关于其永续证券及其他债务证券将启动债务管理项目的报道纯属无稽之谈。新世界发展强调,公司目前并未开展任何形式的债务管理计划,也无意进行相关操作。与此同时,有关公司正在筹备潜在股权融资的消息也被一一否认,公司明确表示未收到任何股权融资建议。面对此轮市场传闻,...
19:01
泰利福公司近日传来喜讯,其中国区正式荣获海关高级认证企业(AEO)资质这一殊荣。这一认证不仅是对泰利福在进出口合规管理、供应链安全等方面达到国际一流标准的权威认可,更将为其跨境贸易带来革命性的效率提升。作为经认证的经营者,泰利福中国将享有简化通关流程、优先查验等多项便利措施,这将极大地优化其全球供应链布局,助力企业在激烈的市场竞争中抢占先机。这一重要里程碑的...
19:01
在上周末备受瞩目的苏超半决赛现场,一场开创性的技术盛宴震撼上演。云深处科技联合当虹科技与江苏省广播电视总台,成功部署了由云深处科技自主研发的山猫M20轮足机器人,在全球范围内首次实现了机器狗视角的专业赛事转播。这一突破性应用不仅刷新了体育转播的视觉维度,更标志着人工智能与体育传媒深度融合的新纪元。 作为"机器人摄像师",这款高度智能化的足机器人突破了传统转播...
19:01
卡西欧计算机株式会社隆重推出全新G-SHOCK DWN-5600腕表,这款腕表以突破性的戒指尺寸紧凑机身,重新定义了微型化设计的技术边界。在极致的微型化设计中,卡西欧巧妙地保留了G-SHOCK标志性的抗震结构与200米防水性能,使其成为品牌创立以来最迷你的腕表杰作。这一创新不仅将经典防护性能浓缩于方寸之间,更彰显了卡西欧在精密时计领域的深厚技术积淀与卓越工艺...
19:00
ASICS亚瑟士近期重磅推出两款创新跑鞋——GEL-SONOMA TR62与GEL-PICKAX,进一步巩固其在都市运动与户外探索领域的产品矩阵。作为品牌科技实力的最新体现,这两款新鞋完美融合了前沿设计理念与实用功能需求,为不同场景下的运动爱好者带来卓越体验。 GEL-SONOMA TR62采用革命性的SpEVA科技中底,通过特殊分子结构设计显著提升缓震回弹...
19:00
波士顿科学公司近日正式宣布达成一项重大战略交易,已与私营医疗器械企业Nalu Medical, Inc.签署最终收购协议。据悉,此次交易将包含约5.33亿美元的首付款项,这一举措标志着波士顿科学在神经调节治疗领域的版图将进一步扩大。Nalu Medical作为行业内的创新先锋,长期专注于开发前沿的脊髓刺激疗法,其独特的技术平台有望显著增强波士顿科学在慢性疼痛...