• 突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

    ·

    音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是”曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器”翻译”回波形。每一次转换都带来信息损失与误差累积,最终丢失了最需要保留的细腻音色与个性化细节。 能不能让 AI 直接学会声音本身的规律,跳过中间环节? 为破解这一技术瓶颈,美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中,我们彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech, TTS),从根源阻断数据转换的级联误差。 另外,我们做了两个关键改进:首先,我们识别并纠正了一个长期存在的”训练-推理不匹配”问题;其次,我们用自适应投影引导(APG)取代了传统的无分类器引导(CFG),从而大幅提升了最终的语音生成质量。 结果表明,LongCat-AudioDiT 在 Seed 基准测试中取得当前最优(SOTA)的零样本语音克隆性能,同时保持了具有竞争力的可懂度。 其中 LongCat-AudioDiT-3.5B 模型,在 Seed-ZH 测试集的说话人相似度(SIM)指标提升至 0.818,Seed-Hard 测试集达到 0.797,超过了 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等知名模型,验证了波形空间直接生成范式的有效性。 今天,我们将 LongCat-AudioDiT(1B/3.5B)完整开源: Paper: https://arxiv.org/abs/2603.29339v1 GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT 接下来,我们将为您拆解 LongCat-AudioDiT 的核心技术创新。 一、波形潜在空间直接生成架构:规避中间表征的信息衰减瓶颈 业界主流 TTS 系统长期受困于”多阶段”的复杂流程:先预测中间声学特征(如梅尔频谱),再依赖一个独立的神经声码器将特征”翻译”成最终波形。这种”预测+翻译”的范式,本质上是在两个不同空间里”传话”,必然会累积误差,导致最终合成的声音丢失了高保真、个性化的细节——而这恰恰是零样本语音克隆最需要保留的部分。 为此,我们构建了全新的 LongCat-AudioDiT 架构。其核心逻辑非常简单: 只用一个波形变分自编码器(Wav-VAE)和一个扩散 Transformer(DiT),在波形隐空间里完成声音的压缩、建模与重建。 1.1 Wav-VAE:为波形量身定制的压缩器 Wav-VAE 作为一个全卷积音频自编码器,它将原始波形压缩为紧凑的连续隐向量。其设计蕴含了多项关键创新: 高效的下采样与多尺度建模:编码器通过多级 Oobleck 块实现层级下采样,每个块内堆叠了带空洞卷积的残差单元,能够捕获从局部到全局的时序依赖。最终将 24kHz 的波形压缩到约 11.7Hz 的帧率,压缩比超过

    Read More

  • LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

    ·

    如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。 为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降? 究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。 为此,我们提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。 01 背景:缺一把从视频到动作的标尺 当前主流的 Vision-Language-Action(VLA)模型,其泛化能力受限于一个核心矛盾:互联网上存在海量的人类视频,视觉信号极其丰富,但如何将这些视觉信息转化为机器人可用的动作表征,始终缺少高效的路径。具体表现为三个层面: 数据瓶颈:带精确动作标注的机器人数据依赖遥操作采集,成本高、规模小;而人类视频虽体量庞大,却天然缺失机器人可执行的动作标签,画面与动作之间存在模态断层。 表征瓶颈:即便从人类视频中提取信息,传统做法输出的本体动作数据高度绑定特定硬件,难以跨形态迁移。隐式动作表征通过学习“帧与帧之间的变化”来抽象与本体无关的动作语义,为打通从视觉到动作的链路提供了更具泛化潜力的中间表示。 范式瓶颈:长期依赖人工标注使得具身智能局限于“固定场景精调”,无法像大语言模型那样从规模化数据中涌现能力。隐式动作表征路线的本质,正是试图以无标注的人类视频驱动规模化预训练,让从视觉到动作的学习也能走上数据驱动的扩展轨道。 自 2024 年 LAPA 等早期工作提出以来,基于隐式动作表征的研究已陆续展开。然而,现有评测大多只看端到端任务成功率,始终缺少一个能独立衡量中间表征质量的标准基准——动作表征领域,还没有自己的 ImageNet。具体表现为:表征与下游策略难以解耦、跨本体泛化能力无法检验、训练策略的系统性分析缺失。 02 LARYBench :如何构建动作表征的标准化评测 为填补这一空白,我们提出了 LARYBench ,一个从本体动作和语义动作两个粒度出发,系统评估隐式动作表征质量的基准。如图1所示,评测数据集涵盖超过一百万段精心标注的视频(总时长超过1000小时),涉及151种不同类型的动作,同时包含62万对图像和59.5万条运动轨迹,覆盖了多样化的机器人形态与操作环境。 2.1 任务定义与评测流程 评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。 动作的定义由细到粗分为三个层级: 本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部3D坐标、3D旋转角及夹爪开闭等。 原子语义动作:本体动作聚合为可用自然语言描述的原子操作,如上下左右前后移动、夹爪开闭。 复合语义动作:原子动作进一步聚合为有完整语义的行为,如拿起、放下、擦拭等。 针对不同粒度的动作,评测采用不同的验证方式: 语义动作分类:对提取的表征 z 接入 Attentive Probing 结构,进行动作类别分类,以准确率衡量表征对高层动作语义的捕捉能力。 本体动作回归:对表征 z 接入 Action

    Read More

  • 用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

    ·

    当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。 本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。 经验一:用Agent评测思路管理AI Coding。我们团队负责 Agent 评测业务,在实践中沉淀出一套核心标准对齐理念:“人人对齐→人机对齐”。我们发现管理 AI Coding 的底层逻辑一模一样 —— 先让团队形成统一共识(人人对齐),再将共识固化为 AI 可执行的约束(人机对齐)。本质上,就是同一套方法论在两个领域的复用。 经验二:AI 正在重新定义“经验”的价值边界。利用 AI 工具,工程师短时间内就发现了 10 个性能隐患——过去需要长期积累才能建立的代码全局感,现在借助 AI,团队中的每个人都能快速具备。经验的价值正在从“能看全”转移到“能判断什么重要”。 经验三:技术债可以像业务需求一样被迭代消化。 行业谈重构,要么推倒重来,要么申请专项。我们给出了第三条路:把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化。 一、背景 Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度: 业务仍处于探索期,导致需求高度模糊:全行业都在探索 Agent 评测,用户也不了解应该如何评测。这个大背景导致评测的需求又急又模糊。急,希望快速试错;模糊,业务方也不确定这条路是否真的有价值。 庞大且高频的迭代体量:系统从 2025 年 6 月约不足 5 万行代码快速扩展至 31 万行,保持着月均 16 个需求(80% 业务需求 + 20% 技术需求)的高负荷运转。 “笛卡尔积”级别的业务场景矩阵:系统底层支持 6

    Read More

  • 美团 LongCat 开源 General 365:树立推理评测新标尺

    ·

    大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。 这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。 基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。 这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。 01 研究背景:大模型真的会“思考”吗? 过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。 General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征: 高多样性:365 道原创种子题目及 1095 个扩展变体,全面覆盖八大挑战类型,避免重复特征与死记硬背; 高挑战性:SOTA 模型在此基准上也仅能勉强及格; 聚焦推理:知识范围严格限定在 K-12,纯粹衡量逻辑推理,而非知识检索; 严格人工质检:全量题目均经过人工审核,覆盖题目设计、推理轨迹与最终答案; 精准评分:采用混合规则与模型的打分方法,人工抽样验证,评分准确率达 99.6%。 02 设计理念:通用推理能力如何被量化? 2.1 八大维度,圈定通用推理的“考纲” 要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一: 复杂约束:多条件交织下的全局一致性维护; 分支与枚举:解空间的系统性遍历与边界覆盖; 时空推理:空间关系与时间序列的动态推演; 递归与回溯:假设—验证—推翻的迭代纠错; 语义干扰:跨越认知陷阱,严格遵循题设规则; 隐式信息:从碎片线索推断底层逻辑结构; 最优策略:多路径方案中的效用权衡与规划;

    Read More

  • 从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

    ·

    美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。 为了让数字人”更稳定、更自然”地动起来,我们在以下三方面实现能力升级: 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定; 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者; 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。 查看演示视频 开源链接 GitHub:https://github.com/meituan-longcat/LongCat-Video HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary 一、不止于“嘴动”,更有真实的交互力与戏剧感 1.1 音频编码器升级:让口型更精准自然 在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解”每一刻应该如何开口”。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。 综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求。 查看演示视频 1.2 高质量数据体系:让模型在复杂场景中应对更自如 商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程: 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。 同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点: 多人数据:通过主动说话人检测,保留同一时刻只有单一说话人发声的片段,从源头降低多人场景的音画歧义。 静默数据:筛选人物未说话的视频,让模型学习无语音状态下自然的微表情、视线与身体动态,避免非说话角色嘴部乱动。 情绪数据:结合多模态初筛与帧级情绪识别精筛,注入情绪变化过程,使模型更好理解语音、表情与身体反应的关联。 这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。 查看演示视频 1.3 逐帧级 GRPO 偏好对齐:让多人交互场景更生动自然 在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative

    Read More

  • [推广] 福利: 7 个住宅 IP 兑换码,新用户专享

    ·

    回帖自取,仅限新用户兑换,每人限领一个,重复使用封号。领了麻烦回帖告知用了哪个,方便别人。 🎁 兑换码(以下共 7 个,四选一即可,先到先得) ZYW6-BRND-APBF RVGX-XFTQ-SUNL L838-6ZHY-JDY7 823C-FNPH-5SPV PCMH-2C4M-JCEM ZAR8-6H6G-GL9V KAVS-ZL5T-W87C ⚠️ 注意:每个兑换码仅能使用一次,如输入时提示无效,说明已被其他用户领走,请尝试其他码。 🔗 怎么用 注册 👉 辣椒 HTTP (新用户) 登录后台 → 「用户中心」→「 CDK 兑换」 输入上方任意一个码,动态住宅流量到账 注册时填邀请码 ff8888 还能叠加流量包。 💡 关于辣椒 HTTP 住宅 IP 动态住宅 IP:5 元/GB ,支持 1-120 分钟会话粘性(数据采集、价格监控) 静态长效 IP:9.9 元/个/7 天,IP 固定(多店铺、社媒账号) 9000 万+ 真实住宅 IP ,190+ 国家,城市级定位 99.9% 连通率,响应 <

    Read More

  • [推广] 做了个 AI 问卷调研工具 https://wj.pro 前 100 位 V 友送一个月会员

    ·

    各位 V 友好。 我们做了个 AI 调研工具叫 问卷派(https://wj.pro),简单讲就是想把”出问卷 → 找样本 → 跑分析”这一整套从专业工具搬到一段对话里。具体能干嘛: 跟 AI 说一句话,它帮你出问卷,NPS 、四象限矩阵这种复杂题型也支持 找不到用户跑调研?用自然语言描述目标人群(比如”一线城市 25-35 岁 iOS 用户”),系统匹配真实样本投放 数据回收后 AI 直接出分析报告,省掉自己拼 PPT 的功夫 随机题、条件逻辑、皮肤更换这些常规需求都有 可能适合的场景: 独立开发者验 PMF / 做用户访谈前的筛选 ToC 产品同学做产品调研 学生写论文要发问卷 设计师 / PM 做用户研究 地址:https://wj.pro 欢迎拍砖,尤其想听: 题型够不够用 AI 生成的问卷质量到底行不行 调研,样本库,数据分析等功能是否符合预期 前 100 位通过本帖注册的用户,送一个月专业版的会员。 ,注册之后可以在个人中心复制 id ,或站内信发我昵称 or id 都行。24h 内会手动开通,谢谢各位。

    Read More