LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
·
一个经常加班的白领,一个带着孩子出游的父亲,你的AI助理能分清他们需要什么样的服务吗? 现实是,它常常分不清。 AI能执行你明确的指令,却很难记住那些藏在场景和身份背后的真实需求。它们是真的无法理解,还是“情商”不够高呢? 自去年10月发布了 VitaBench 1.0,首次定义了生活场景下智能体任务的复杂度,美团 Longcat 团队再次推出 VitaBench 2.0,它不再仅仅关注任务有多难,而是将目光投向了更深层次的挑战。 VitaBench 2.0 是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。 VitaBench 2.0 的 核心“硬核”看点: 高难度业界首创:首次将智能体场景与丰富用户生态相结合,打造面向长期动态用户建模的智能体基准。其包含56名真实特征用户、819个复杂任务、超2000个动态偏好及66个可执行工具。 超长跨度动态追踪:平均每位用户包含 2093 个交互事件,平均时间跨度长达 1580 天,严格按时间线向 Agent 暴露,真实还原用户偏好的演进与漂移。 统一评测生态:针对长文本上下文学习(In-context learning)与智能体记忆策略(Memory Strategy)的统一评测平台。 01 设计原理:VitaBench 2.0的三维解构 能得出这些结论,得益于VitaBench 2.0的核心设计。它不再是简单的问答,而是围绕三大创新构建了一个前所未有的评测体系。 1.1 搭建“人生副本”:让AI在真实用户轨迹中接受考验 不同于一次性的问答,VitaBench 2.0为56位虚拟用户,在送餐、到店、差旅等多个真实领域中,构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。 这背后是庞大而真实的数据支撑。如下图所示,这些图表直观地展示了我们构建的用户画像和偏好分布的真实性与复杂性。 具体来说,这个数据生态包含: 56个拟真用户,每个用户都拥有基于真实世界统计数据构建的独特身份、习惯和需求。 819个可执行任务,贯穿于用户的整个生命周期。 用户的偏好不是静态标签,而是会随着时间、事件而动态演变,平均每个用户的偏好会发生超过48次动态变化。 这些偏好被巧妙地嵌入到碎片化的互动历史中,包括对话记录和行为日志(如浏览、搜索、下单)。智能体必须像侦探一样,从这些混杂着“信号”与“噪音”的线索中,持续对用户进行理解。 1.2 引入“时间标尺”:将持续理解作为核心目标 传统的Agent评测关注“单个任务是否完成”,而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。 为此,我们将评测的时间轴拉长到了前所未有的尺度,用户的平均交互周期长达1580天(约4.3年),最长甚至达到 2,974 天。在这漫长的时间线里,智能体需要不断地提取、利用、并更新对用户的理解,才能在后续的任务中做出正确决策。这从根本上改变了评测的焦点,从单次任务的成功,转向了对用户偏好的考核。 1.3 设立“记忆擂台”:对决AI的两种记忆模式 为了探究记忆在长期用户建模中的作用,VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台,通过可扩展的接口,让两种代表性机制在此对决: 智能体记忆: AI自己决定记住什么、忘记什么,主动维护一个精炼的用户档案。