美团 LongCat 团队近日重磅发布了一项创新性评测基准——VitaBench,专为多交互任务设计,尤其聚焦于复杂生活场景的实际应用。这一重要基础设施的推出,为智能体在真实环境中的研发提供了关键支撑,标志着智能体技术迈向实用化的重要一步。

VitaBench 精准定位外卖点餐、餐厅就餐和旅游出行等高频真实场景,构建了一个包含66个工具的交互式评测环境。评测任务设计覆盖了从购票到餐厅预订等一系列复杂操作,要求智能体在任务执行过程中展现出深度推理、工具调用与用户互动的综合能力。尽管当前领先的推理模型已取得显著进展,但 LongCat 团队的研究数据显示,智能体在复杂跨场景任务中的成功率仍不足30%,凸显出技术与实际应用需求之间的巨大鸿沟。VitaBench 的问世正是为了填补这一空白,为智能体评测领域树立新标杆。

美团LongCat发布VitaBench智能体评测基准 推动真实场景应用插图

该基准的设计基于对推理复杂性、工具复杂性和交互复杂性的三维深度分析。团队通过将这些维度进行量化,系统化地衡量智能体在真实场景中的表现。具体而言,推理复杂度主要通过信息整合需求、观察空间大小以及所需处理推理点的数量来评估;工具复杂度则综合考虑工具的依赖关系与调用链长度;交互复杂度则重点关注智能体在多轮对话中的应变能力。这种多维度的评测体系,能够更全面地反映智能体在真实场景中的实际表现。

VitaBench 的构建过程分为两个关键阶段:首先是框架设计工具定义,其次是任务创建与评估标准制定。这一严谨的流程确保了任务的多样性和复杂性,同时突破了传统文档模式的局限性,使智能体能够在没有冗余规则的情况下,自主进行推理和决策,更贴近真实应用场景。

美团LongCat发布VitaBench智能体评测基准 推动真实场景应用插图1

目前,VitaBench 已全面开源,研究人员和开发者可通过其官方网站和 GitHub 平台免费访问相关资源。这一开放姿态将极大地促进智能体技术的交流与合作,加速其在真实生活场景中的应用与发展。VitaBench 的发布不仅标志着智能体评测领域的重要里程碑,更预示着智能体技术将迎来新一轮的突破与创新。

项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/abs/2509.26490
代码仓库:https://github.com/meituan-longcat/vitabench
数据集:https://huggingface.co/datasets/meituan- longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard

最新快讯

2025年10月22日

01:52
2025年10月22日,欧莱雅集团首席执行官在公开场合明确表示,尽管集团已与开云集团达成战略合作协议,但未来仍将积极寻求与阿玛尼品牌展开潜在合作的可能性。这一表态不仅彰显了欧莱雅在奢侈品美妆领域的开放性战略布局,更释放出集团未来可能进一步拓展高端品牌版图的强烈信号。作为全球美妆行业的领军企业,欧莱雅始终致力于通过多元化合作与战略整合,持续提升其在奢侈品市场的...
01:52
2025年10月22日,华纳兄弟探索公司正式宣布对HBO Max流媒体平台的订阅价格进行新一轮调整。此次调价幅度显著,影响所有现有订阅方案,具体调整如下:含广告的入门级套餐月费将上涨1美元,标准无广告套餐涨幅达到1.5美元,而高级无广告套餐的月费则上调2美元。值得注意的是,这一价格调整政策将从即日起立即生效,标志着平台自推出以来首次全面提价。 华纳兄弟探索公...
01:52
OpenAI重磅推出人工智能驱动型网络浏览器ChatGPT Atlas,正式登陆macOS平台并开启全球服务。公司CEO萨姆・奥尔特曼在产品发布直播中强调,这款浏览器将革新互联网使用模式,通过自然语言对话实现前所未有的直观交互体验。 产品负责人亚当・弗莱详细介绍了ChatGPT Atlas的核心创新:其内置的智能记忆系统能够深度学习用户偏好,自动构建个性...
01:21
2025年第三季度,泡泡玛特在海外市场取得了令人瞩目的业绩突破,整体营收呈现爆发式增长态势。具体来看,美洲地区表现尤为抢眼,营收同比增长高达1270%,展现出极强的市场渗透能力;欧洲市场同样表现强劲,最高增幅达到740%,彰显了品牌在欧洲地区的快速扩张;亚太地区也实现了稳健增长,营收增幅稳定在170%至175%区间,进一步巩固了公司在亚洲市场的领先地位。公司...
01:21
2025年10月22日,辉瑞加拿大公司迎来重要里程碑,宣布加拿大卫生部正式批准Abrysvo疫苗新增适应症,使其适用于18至59岁的成年人群。这一关键性决策不仅拓展了该疫苗此前仅针对婴儿和幼儿的适用范围,更彰显了其在更广泛年龄段的健康保护价值。据悉,此次批准的核心依据是严谨的临床试验数据,这些数据有力证实了Abrysvo疫苗在目标成年人群中展现出卓越的安全性...
00:51
冰岛自然历史研究所近日宣布一项重大发现,科学家在Kjós镇成功捕获三只Culiseta annulata蚊虫,这标志着该物种在冰岛的存在首次得到科学证实。这一突破性成果打破了冰岛作为全球极少数无蚊地区的传统认知,此前只有南极洲与之并列。 值得注意的是,这一现象与全球气候变暖密切相关。研究表明,冰岛近年来升温速度高达北半球平均值的四倍,这种剧烈的气候变化为耐寒...
00:20
2025年10月21日,备受瞩目的宇树科技IPO辅导工作迎来重要进展,其合作辅导机构中信证券正式披露了首期辅导成果。据悉,辅导小组正全力协助宇树科技管理层对计划募资项目进行深度论证与全面分析,通过紧密结合行业发展趋势与公司长远战略规划,确保募资项目能够精准契合企业未来发展需求,为后续成功上市奠定坚实基础。 此次IPO辅导工作由中信证券担任主导机构,其工作...
00:20
兰博基尼于上海盛大揭幕Revuelto Ad Personam二十周年特别版车型,以此向品牌正式进入中国内地市场二十周年致敬。作为首款搭载高性能混合动力系统(HPEV)的超跑,Revuelto Ad Personam凝聚了兰博基尼的巅峰工艺与前瞻科技,其搭载的1015马力V12混动系统不仅实现了动力与效率的完美平衡,更通过卓越的空气动力学设计,将性能表现推向...
00:20
近日,OpenAI内部研发的AI驱动浏览器项目"Aura"引发广泛关注。据行业消息透露,这款基于Chromium内核的新浏览器正加速推进中,其最大亮点在于可能深度集成ChatGPT智能对话功能。若传闻属实,这将是浏览器技术的一次重大革新,有望彻底改变用户浏览网页的交互体验。 业界普遍认为,OpenAI即将举办的线上发布会将成为"Aura"正式亮相的舞台。随着...

2025年10月21日

23:48
近期,国内多地为维护网络秩序,对一系列突破法律底线的博取流量行为展开严厉打击,彰显了网络空间治理的坚定决心。在浙江杭州临平区,网民曾某某为博取眼球,恶意编造“准新娘错发涉黄信息”的虚假谣言,严重扰乱了网络秩序,最终被公安机关依法处以行政拘留。这一事件不仅揭示了部分网民为流量不择手段的扭曲心态,更凸显了网络谣言对社会信任体系的严重侵蚀。 在湖北咸宁,网络主播谭...
23:48
2025年10月21日,全球领先的私募股权投资机构黑石集团与TPG资本集团旗下多家附属基金联合宣布,成功为即将进行的医疗科技公司Hologic收购交易募集到总额高达122.5亿美元的债务融资。这一重大交易落地北美地区,收购方由黑石和TPG旗下基金组成,目标公司则是全球女性健康诊断设备领域的领军企业Hologic。据悉,此次巨额融资将专项用于支持并购整合进程,...
23:48
2025年10月21日,可口可乐公司首席财务官John Murphy在公开场合透露,企业正积极推动使用美国本土蔗糖生产可乐产品。这一战略举措旨在响应市场趋势,满足消费者对天然成分产品的迫切需求。然而,计划实施过程中遭遇了显著挑战,主要受限于原材料供应的不足。美国本土蔗糖产量长期无法满足企业需求,加之供应链环节存在诸多问题,严重制约了该战略的规模化推广。面对这...