突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
·
音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是”曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器”翻译”回波形。每一次转换都带来信息损失与误差累积,最终丢失了最需要保留的细腻音色与个性化细节。 能不能让 AI 直接学会声音本身的规律,跳过中间环节? 为破解这一技术瓶颈,美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中,我们彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech, TTS),从根源阻断数据转换的级联误差。 另外,我们做了两个关键改进:首先,我们识别并纠正了一个长期存在的”训练-推理不匹配”问题;其次,我们用自适应投影引导(APG)取代了传统的无分类器引导(CFG),从而大幅提升了最终的语音生成质量。 结果表明,LongCat-AudioDiT 在 Seed 基准测试中取得当前最优(SOTA)的零样本语音克隆性能,同时保持了具有竞争力的可懂度。 其中 LongCat-AudioDiT-3.5B 模型,在 Seed-ZH 测试集的说话人相似度(SIM)指标提升至 0.818,Seed-Hard 测试集达到 0.797,超过了 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等知名模型,验证了波形空间直接生成范式的有效性。 今天,我们将 LongCat-AudioDiT(1B/3.5B)完整开源: Paper: https://arxiv.org/abs/2603.29339v1 GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT 接下来,我们将为您拆解 LongCat-AudioDiT 的核心技术创新。 一、波形潜在空间直接生成架构:规避中间表征的信息衰减瓶颈 业界主流 TTS 系统长期受困于”多阶段”的复杂流程:先预测中间声学特征(如梅尔频谱),再依赖一个独立的神经声码器将特征”翻译”成最终波形。这种”预测+翻译”的范式,本质上是在两个不同空间里”传话”,必然会累积误差,导致最终合成的声音丢失了高保真、个性化的细节——而这恰恰是零样本语音克隆最需要保留的部分。 为此,我们构建了全新的 LongCat-AudioDiT 架构。其核心逻辑非常简单: 只用一个波形变分自编码器(Wav-VAE)和一个扩散 Transformer(DiT),在波形隐空间里完成声音的压缩、建模与重建。 1.1 Wav-VAE:为波形量身定制的压缩器 Wav-VAE 作为一个全卷积音频自编码器,它将原始波形压缩为紧凑的连续隐向量。其设计蕴含了多项关键创新: 高效的下采样与多尺度建模:编码器通过多级 Oobleck 块实现层级下采样,每个块内堆叠了带空洞卷积的残差单元,能够捕获从局部到全局的时序依赖。最终将 24kHz 的波形压缩到约 11.7Hz 的帧率,压缩比超过