• 从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

    ·

    美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。 为了让数字人”更稳定、更自然”地动起来,我们在以下三方面实现能力升级: 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定; 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者; 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。 查看演示视频 开源链接 GitHub:https://github.com/meituan-longcat/LongCat-Video HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary 一、不止于“嘴动”,更有真实的交互力与戏剧感 1.1 音频编码器升级:让口型更精准自然 在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解”每一刻应该如何开口”。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。 综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求。 查看演示视频 1.2 高质量数据体系:让模型在复杂场景中应对更自如 商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程: 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。 同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点: 多人数据:通过主动说话人检测,保留同一时刻只有单一说话人发声的片段,从源头降低多人场景的音画歧义。 静默数据:筛选人物未说话的视频,让模型学习无语音状态下自然的微表情、视线与身体动态,避免非说话角色嘴部乱动。 情绪数据:结合多模态初筛与帧级情绪识别精筛,注入情绪变化过程,使模型更好理解语音、表情与身体反应的关联。 这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。 查看演示视频 1.3 逐帧级 GRPO 偏好对齐:让多人交互场景更生动自然 在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative

    Read More

  • [推广] 福利: 7 个住宅 IP 兑换码,新用户专享

    ·

    回帖自取,仅限新用户兑换,每人限领一个,重复使用封号。领了麻烦回帖告知用了哪个,方便别人。 🎁 兑换码(以下共 7 个,四选一即可,先到先得) ZYW6-BRND-APBF RVGX-XFTQ-SUNL L838-6ZHY-JDY7 823C-FNPH-5SPV PCMH-2C4M-JCEM ZAR8-6H6G-GL9V KAVS-ZL5T-W87C ⚠️ 注意:每个兑换码仅能使用一次,如输入时提示无效,说明已被其他用户领走,请尝试其他码。 🔗 怎么用 注册 👉 辣椒 HTTP (新用户) 登录后台 → 「用户中心」→「 CDK 兑换」 输入上方任意一个码,动态住宅流量到账 注册时填邀请码 ff8888 还能叠加流量包。 💡 关于辣椒 HTTP 住宅 IP 动态住宅 IP:5 元/GB ,支持 1-120 分钟会话粘性(数据采集、价格监控) 静态长效 IP:9.9 元/个/7 天,IP 固定(多店铺、社媒账号) 9000 万+ 真实住宅 IP ,190+ 国家,城市级定位 99.9% 连通率,响应 <

    Read More

  • [推广] 做了个 AI 问卷调研工具 https://wj.pro 前 100 位 V 友送一个月会员

    ·

    各位 V 友好。 我们做了个 AI 调研工具叫 问卷派(https://wj.pro),简单讲就是想把”出问卷 → 找样本 → 跑分析”这一整套从专业工具搬到一段对话里。具体能干嘛: 跟 AI 说一句话,它帮你出问卷,NPS 、四象限矩阵这种复杂题型也支持 找不到用户跑调研?用自然语言描述目标人群(比如”一线城市 25-35 岁 iOS 用户”),系统匹配真实样本投放 数据回收后 AI 直接出分析报告,省掉自己拼 PPT 的功夫 随机题、条件逻辑、皮肤更换这些常规需求都有 可能适合的场景: 独立开发者验 PMF / 做用户访谈前的筛选 ToC 产品同学做产品调研 学生写论文要发问卷 设计师 / PM 做用户研究 地址:https://wj.pro 欢迎拍砖,尤其想听: 题型够不够用 AI 生成的问卷质量到底行不行 调研,样本库,数据分析等功能是否符合预期 前 100 位通过本帖注册的用户,送一个月专业版的会员。 ,注册之后可以在个人中心复制 id ,或站内信发我昵称 or id 都行。24h 内会手动开通,谢谢各位。

    Read More

  • [问与答] loon 配置 wireguard 后无法代理问题请教

    ·

    大佬们,刚下载 loon 。用的可莉的那些配置。用 Vmess 的话可以正常的使用。但是用 wireguard 的话是无法代理的,节点是没有问题的,小火箭可以正常代理,且配置完成后,UDP 测试也是通过的,但是科学上网的时候无法使用的。是哪里配置有问题么?请各位大佬指教下

    Read More

  • [问与答] 刚才选设计图标,感觉年轻人已经不知道电话图标的含义了,直接用手机图标?

    ·

    目前几大热门图标库都还有电话听筒的图标📞,用来表示通话,联系方式之类的。但是现实是现在除了一些办公室和一些特定的场景,很少用到这样拿起听筒,按下机械号码然后通话的模式了,也就是年轻人从接触远程通话就是手机,或者视频通话。比如现在的小朋友,他们意识里面的通话就是拿着一块屏幕说话。同样的,还有购物付款也是,小孩说,拿手机去照一下就可以了,基本没有 80 ,90 后一代拿着现金钞票去买东西找钱的体验了。之前还听说年轻大学生,不会用电脑,不会解压文件,现在想想,确实是那样。时代变化太快了。看单位里老专家早年写的技术报告,一笔一划全是手写,真是厉害,有些还用美工笔写一些艺术字,加粗字做标题,可谓艺术品。配图之类的,都是手画。现在打开文字处理图片处理软件无限制擦除重写的工作模式和上一辈人都概念也完全不一样了。

    Read More