从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
·
美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。 为了让数字人”更稳定、更自然”地动起来,我们在以下三方面实现能力升级: 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定; 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者; 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。 查看演示视频 开源链接 GitHub:https://github.com/meituan-longcat/LongCat-Video HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary 一、不止于“嘴动”,更有真实的交互力与戏剧感 1.1 音频编码器升级:让口型更精准自然 在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解”每一刻应该如何开口”。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。 综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求。 查看演示视频 1.2 高质量数据体系:让模型在复杂场景中应对更自如 商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程: 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。 同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点: 多人数据:通过主动说话人检测,保留同一时刻只有单一说话人发声的片段,从源头降低多人场景的音画歧义。 静默数据:筛选人物未说话的视频,让模型学习无语音状态下自然的微表情、视线与身体动态,避免非说话角色嘴部乱动。 情绪数据:结合多模态初筛与帧级情绪识别精筛,注入情绪变化过程,使模型更好理解语音、表情与身体反应的关联。 这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。 查看演示视频 1.3 逐帧级 GRPO 偏好对齐:让多人交互场景更生动自然 在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative