如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。 为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降? 究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。 为此,我们提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。 01 背景:缺一把从视频到动作的标尺 当前主流的 Vision-Language-Action(VLA)模型,其泛化能力受限于一个核心矛盾:互联网上存在海量的人类视频,视觉信号极其丰富,但如何将这些视觉信息转化为机器人可用的动作表征,始终缺少高效的路径。具体表现为三个层面: 数据瓶颈:带精确动作标注的机器人数据依赖遥操作采集,成本高、规模小;而人类视频虽体量庞大,却天然缺失机器人可执行的动作标签,画面与动作之间存在模态断层。 表征瓶颈:即便从人类视频中提取信息,传统做法输出的本体动作数据高度绑定特定硬件,难以跨形态迁移。隐式动作表征通过学习“帧与帧之间的变化”来抽象与本体无关的动作语义,为打通从视觉到动作的链路提供了更具泛化潜力的中间表示。 范式瓶颈:长期依赖人工标注使得具身智能局限于“固定场景精调”,无法像大语言模型那样从规模化数据中涌现能力。隐式动作表征路线的本质,正是试图以无标注的人类视频驱动规模化预训练,让从视觉到动作的学习也能走上数据驱动的扩展轨道。 自 2024 年 LAPA 等早期工作提出以来,基于隐式动作表征的研究已陆续展开。然而,现有评测大多只看端到端任务成功率,始终缺少一个能独立衡量中间表征质量的标准基准——动作表征领域,还没有自己的 ImageNet。具体表现为:表征与下游策略难以解耦、跨本体泛化能力无法检验、训练策略的系统性分析缺失。 02 LARYBench :如何构建动作表征的标准化评测 为填补这一空白,我们提出了 LARYBench ,一个从本体动作和语义动作两个粒度出发,系统评估隐式动作表征质量的基准。如图1所示,评测数据集涵盖超过一百万段精心标注的视频(总时长超过1000小时),涉及151种不同类型的动作,同时包含62万对图像和59.5万条运动轨迹,覆盖了多样化的机器人形态与操作环境。 2.1 任务定义与评测流程 评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。 动作的定义由细到粗分为三个层级: 本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部3D坐标、3D旋转角及夹爪开闭等。 原子语义动作:本体动作聚合为可用自然语言描述的原子操作,如上下左右前后移动、夹爪开闭。 复合语义动作:原子动作进一步聚合为有完整语义的行为,如拿起、放下、擦拭等。 针对不同粒度的动作,评测采用不同的验证方式: 语义动作分类:对提取的表征 z 接入 Attentive Probing 结构,进行动作类别分类,以准确率衡量表征对高层动作语义的捕捉能力。 本体动作回归:对表征 z 接入 Action
Read More