美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型
·
6月30日,美团正式发布新一代万亿参数大模型 LongCat-2.0,并将对外开源。 作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型(总参数 1.6 T,平均激活约 48 B,动态范围 33B~56B),LongCat-2.0 从零开始预训练,原生支持 1M 超长上下文,其架构设计自始至终围绕一个核心目标:让模型在真实的 Agentic Coding 任务中,更高效、更稳定地完成代码理解、生成与执行。 正式版发布前,LongCat-2.0预览版本已通过 OpenRouter 平台和longcat.ai面向全球开发者开放调用——截至目前该模型已跻身 OpenRouter 全球大模型调用量前三,月调用量在 Hermes、Claude Code 和 OpenClaw 分列全球第一、第二和第三位,成为最受全球 Agent 开发者欢迎的模型之一。 01 国模国芯全栈协同:完成万亿参数 MoE 模型在国产算力上的稳定训练 LongCat 团队对国产算力的探索始于 2023 年,三年来,团队从千卡起步,逐步攻克算子适配、通信优化、分布式稳定性等基础难题,最终在五万卡集群上完成万亿参数模型的全流程训练与推理。 LongCat-2.0 预训练数据规模超过30Ttokens,覆盖中文、英文、多语言和代码等多类数据;面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动,LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。 在稳定性上,通过卡间通信异常处理、弹性扩缩卡和自动故障恢复,将月均日故障率降低70%以上; 在正确性上,通过自研设计确定性算子、Bitwise 一致性验证和参数检测,保障训练结果的可靠,同时基于实践提升关键模块计算精度、优化 Reduce 逻辑; 在效率上,通过流水线调度、显存优化和算子级控核,训练 MFU 提升 1.5 倍。 最终,LongCat 实现稳态日吞吐超过1T tokens/day,完成万亿参数 MoE 模型在国产算力上的稳定训练。 在推理阶段,LongCat-2.0 围绕模型、算子和框架进行协同优化:通过大规模专家并行聚合访存带宽,支撑万亿参数 MoE