News

直播回放·含 ACL'26 杰出论文 | 美团 AI 顶会论文 32 篇精讲

July 19, 2026

·

user

🏆 近日，ACL 2026 杰出论文奖在圣地亚哥揭晓，全球仅 18 篇入选，美团履约技术团队的《GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR》上榜啦，一键直达视频回放👉🏻 小红书 | B站如果你正在关注 AI 前沿，这篇内容值得收藏。 2026 年，美团技术团队数十篇论文被 ACL、SIGIR、ICML、KDD 等顶会收录。我们精选 32 篇，进行了 5 大专场直播。内容涵盖了大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向——既有底层能力的突破，也有贴近生活服务的落地探索。如果你错过了直播，或者想再看一遍👇 五场回放都在这里啦，找到你感兴趣的议题，随时开始。特别感谢所有讲师与筹备团队的倾力支持！也感谢每一位关注美团技术成长的你！❤️ 专场一：ACL’26 综合专场 👉 直播回放入口→ 小红书｜ B站 📚 论文简介及下载→ 点这里专场二：ACL’26 履约团队前沿技术专场出品人｜ Jichong Gao 美团高级技术专家、Jun Xu 美团高级技术专家 👉 直播回放入口→ 小红书｜ B站 📚 论文简介及下载→ 点这里…
Read More
正式开源！美团 LongCat-2.0 同步开放国产卡推理代码

July 19, 2026

·

user

本周，美团万亿参数大模型 LongCat-2.0 正式开源！ HuggingFace | GitHub | ModelScope 作为业界首个在五万卡国产算力集群上完成推理的万亿参数模型，LongCat-2.0 已全面开源。针对显存与带宽受限的国产算力芯片，我们在模型架构、芯片适配到部署策略上进行了深度协同优化，让万亿参数模型在存量卡上同样跑得稳、跑得快。我们希望以真实 Agentic Coding 任务中的稳定表现为依托，通过开源将模型能力与推理优化成果完整开放，盘活更多存量国产算力，释放国产算力生态的长期价值。美团 LongCat-2.0 总参数 1.6T，平均激活约 48B，为真实的 Agentic Coding 任务而生，架构上创新性引入 LongCat 稀疏注意力和 N-gram Embedding，提升长上下文处理效率与 Token 级表示能力的同时，结合动态激活进一步强化了代码理解、生成以及执行的表现。 01 模型、芯片适配与部署三个方向逐一突破，实现了万亿参数模型的流畅推理面对显存、带宽和互联的多重限制，LongCat-2.0 结合国产芯片特性，从模型、芯片适配与部署三个方向逐一突破，实现了万亿参数模型的流畅推理：模型层面： Attention 通过 absorb 计算模式、Indexer 与 MLA prolog 并行处理以及 KVP 切分 KV-cache，有效缓解了超长上下文的 I/O 与显存压力。ScMoE 则利用国产芯片的控核能力，让 Dense 与 MoE 分支实现物理核心级并行执行，进一步压缩端到端延迟，实现了百万上下文在国产芯片上的高效推理；芯片适配层面：通过 Super Kernel…
Read More
美团技术团队顶会论文分享：搜索推荐ASX专场

July 4, 2026

·

user

美团业务研发平台/搜推 ASX (Agentic System X)团队聚焦构建大模型为基础的 Agent 技术体系，在大模型后训练、Agentic 强化学习以及多模态理解等核心前沿方向持续深耕，已在 ICLR、NeurIPS、CVPR、AAAI 等 AI 领域的国际顶会发表数十篇高质量研究成果。本文精选了6篇进行解读，希望对大家有所帮助或启发。 01 Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards 上下文轨迹老虎机：面向可验证奖励的强化学习论文下载：PDF 论文简介：现有基于规则奖励的强化学习后训练通常直接使用最近一轮 rollout 进行策略优化，其中，低质量样本会引入噪声，高质量样本又常在单次使用后被丢弃，导致训练不稳定、样本利用不足。本文提出在线样本调度算法 CBS，将样本选择建模为上下文多臂老虎机问题，把每个候选样本视为 arm，并以训练后带来的性能增益作为奖励；通过轻量神经网络预测样本价值，并结合在线反馈动态调度。实验表明，CBS 可与多种策略优化方法结合，在 6 个数学推理数据集上稳定提升性能和训练效率。 02 ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning ResRL：通过负样本投影残差强化学习提升大语言模型推理能力论文下载：PDF 论文简介：本文提出 ResRL，一个负样本强化学习的新算法，旨在解决RLVR 提升LLM推理能力却损伤了输出多样性的问题。我们发现根因是惩罚负样本时误伤了正负样本共享的有效语义。ResRL 用 SVD 正确子空间 +投影残差，让惩罚只打在“真正的错误方向”上–数学超 NSR 9.4%、代码刷新…
Read More
美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型

July 2, 2026

·

user

6月30日，美团正式发布新一代万亿参数大模型 LongCat-2.0，并将对外开源。作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型（总参数 1.6 T，平均激活约 48 B，动态范围 33B~56B），LongCat-2.0 从零开始预训练，原生支持 1M 超长上下文，其架构设计自始至终围绕一个核心目标：让模型在真实的 Agentic Coding 任务中，更高效、更稳定地完成代码理解、生成与执行。正式版发布前，LongCat-2.0预览版本已通过 OpenRouter 平台和longcat.ai面向全球开发者开放调用——截至目前该模型已跻身 OpenRouter 全球大模型调用量前三，月调用量在 Hermes、Claude Code 和 OpenClaw 分列全球第一、第二和第三位，成为最受全球 Agent 开发者欢迎的模型之一。 01 国模国芯全栈协同：完成万亿参数 MoE 模型在国产算力上的稳定训练 LongCat 团队对国产算力的探索始于 2023 年，三年来，团队从千卡起步，逐步攻克算子适配、通信优化、分布式稳定性等基础难题，最终在五万卡集群上完成万亿参数模型的全流程训练与推理。 LongCat-2.0 预训练数据规模超过30Ttokens，覆盖中文、英文、多语言和代码等多类数据；面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动，LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。在稳定性上，通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，将月均日故障率降低70%以上；在正确性上，通过自研设计确定性算子、Bitwise 一致性验证和参数检测，保障训练结果的可靠，同时基于实践提升关键模块计算精度、优化 Reduce 逻辑；在效率上，通过流水线调度、显存优化和算子级控核，训练 MFU 提升 1.5 倍。最终，LongCat 实现稳态日吞吐超过1T tokens/day，完成万亿参数 MoE 模型在国产算力上的稳定训练。在推理阶段，LongCat-2.0 围绕模型、算子和框架进行协同优化：通过大规模专家并行聚合访存带宽，支撑万亿参数 MoE…
Read More
ICML 2026 | 美团技术团队学术论文精选

June 30, 2026

·

user

ICML（International Conference on Machine Learning，国际机器学习大会）是机器学习领域最具影响力的国际顶级学术会议之一。大会旨在探讨机器学习未来发展所面临的关键挑战与核心问题，并通过征集和评估具有重要理论价值和实际影响的前沿研究成果，推动领域发展并引领未来研究方向。2026年，ICML共收到全球篇论文23918投稿，最终6352篇被接收，接收率约为26.6%。本文解读了美团技术团队被收录的13篇论文，覆盖智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等技术方向。 01 MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning MemOCR：面向高效长程推理的版面感知视觉记忆机制论文下载：PDF 论文简介：长时间跨度的智能体推理需要将不断增长的交互历史有效压缩到有限的上下文窗口中。现有的大多数记忆系统将历史序列化为文本，其中token级别的开销是均匀的，且与长度线性增长。为此，我们提出了MemOCR，一种多模态记忆智能体，通过视觉布局实现自适应信息密度的记忆空间分配，从而在紧张的上下文预算下提升长时间跨度推理能力。在长上下文多跳和单跳问答基准测试中，MemOCR优于强文本基线方法，并在极端预算条件下实现了更有效的上下文利用。 02 ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training ScaleEnv: 从零开始构建可扩展的环境合成系统用于通用交互式工具使用智能体的训练论文下载：PDF 论文简介：为智能体配备交互式环境和可验证任务以进行自我探索，对于培养能够适应多样化场景的通用智能体至关重要。我们提出了ScaleEnv，一个完全从零开始构建全交互式环境和可验证任务的框架。ScaleEnv通过程序化测试确保环境的可靠性，通过工具依赖图扩展和可执行动作验证来保证任务的完整性和可解性。在未见过的多轮工具使用基准测试上展示了显著的性能提升，突显了强大的泛化能力。 03 V_0: A Generalist Value Model for Any Policy at State Zero V_0：一种适用于任意策略在初始状态下的通用价值模型论文下载：PDF 论文简介：大语言模型的强化学习训练中的价值模型面临耦合困境：它们需要与更新中的策略同步训练。我们提出了V_0，一种通用价值模型，通过将任务重新定义为上下文学习来预测未见策略的性能，从而将价值估计与特定策略参数解耦。实验结果表明，V_0在GRPO训练过程中追踪策略演化方面优于耦合价值模型，能够优化冷启动预算分配，并在推理路由中逼近性能-成本的帕累托前沿。 04 Learning to Self-Verify Makes Language…
Read More
LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

June 30, 2026

·

user

一个经常加班的白领，一个带着孩子出游的父亲，你的AI助理能分清他们需要什么样的服务吗？现实是，它常常分不清。 AI能执行你明确的指令，却很难记住那些藏在场景和身份背后的真实需求。它们是真的无法理解，还是“情商”不够高呢？自去年10月发布了 VitaBench 1.0，首次定义了生活场景下智能体任务的复杂度，美团 Longcat 团队再次推出 VitaBench 2.0，它不再仅仅关注任务有多难，而是将目光投向了更深层次的挑战。 VitaBench 2.0 是首个真实生活场景下面向长期动态用户建模的智能体评测基准，它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。 VitaBench 2.0 的核心“硬核”看点：高难度业界首创：首次将智能体场景与丰富用户生态相结合，打造面向长期动态用户建模的智能体基准。其包含56名真实特征用户、819个复杂任务、超2000个动态偏好及66个可执行工具。超长跨度动态追踪：平均每位用户包含 2093 个交互事件，平均时间跨度长达 1580 天，严格按时间线向 Agent 暴露，真实还原用户偏好的演进与漂移。统一评测生态：针对长文本上下文学习（In-context learning）与智能体记忆策略（Memory Strategy）的统一评测平台。 01 设计原理：VitaBench 2.0的三维解构能得出这些结论，得益于VitaBench 2.0的核心设计。它不再是简单的问答，而是围绕三大创新构建了一个前所未有的评测体系。 1.1 搭建“人生副本”：让AI在真实用户轨迹中接受考验不同于一次性的问答，VitaBench 2.0为56位虚拟用户，在送餐、到店、差旅等多个真实领域中，构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。这背后是庞大而真实的数据支撑。如下图所示，这些图表直观地展示了我们构建的用户画像和偏好分布的真实性与复杂性。具体来说，这个数据生态包含： 56个拟真用户，每个用户都拥有基于真实世界统计数据构建的独特身份、习惯和需求。 819个可执行任务，贯穿于用户的整个生命周期。用户的偏好不是静态标签，而是会随着时间、事件而动态演变，平均每个用户的偏好会发生超过48次动态变化。这些偏好被巧妙地嵌入到碎片化的互动历史中，包括对话记录和行为日志（如浏览、搜索、下单）。智能体必须像侦探一样，从这些混杂着“信号”与“噪音”的线索中，持续对用户进行理解。 1.2 引入“时间标尺”：将持续理解作为核心目标传统的Agent评测关注“单个任务是否完成”，而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。为此，我们将评测的时间轴拉长到了前所未有的尺度，用户的平均交互周期长达1580天（约4.3年），最长甚至达到 2,974 天。在这漫长的时间线里，智能体需要不断地提取、利用、并更新对用户的理解，才能在后续的任务中做出正确决策。这从根本上改变了评测的焦点，从单次任务的成功，转向了对用户偏好的考核。 1.3 设立“记忆擂台”：对决AI的两种记忆模式为了探究记忆在长期用户建模中的作用，VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台，通过可扩展的接口，让两种代表性机制在此对决：智能体记忆： AI自己决定记住什么、忘记什么，主动维护一个精炼的用户档案。…
Read More
美团海报生成 AIGC 技术创新与实践

June 23, 2026

·

user

一张商业海报，对设计师来说可能是半天工作；对百万中小商家来说，却可能是一道迈不过去的门槛。外包一张专业海报，少则数百、多则数千元；临时促销要求分钟级交付，传统设计流水线却要1到3天；好不容易批量生产出来，质量又参差不齐——这是美团平台上数百万商家每天都在面对的真实困境。AIGC 给了我们一个新的答案，但「生成一张看起来还行的图」和「生成一张真正可用的商业海报」之间，横亘着精准文字渲染、和谐版式布局、多任务统一支持、质量可量化评估等多项相互交织的技术挑战。过去两年，美团智能创作团队围绕这一问题，构建了覆盖「能生成、能编辑、能评判」的完整技术体系： PosterCraft（ICLR 2026）：摒弃模块化流水线，端到端统一优化文字、视觉与版式，在文字渲染准确率上接近Top级别的闭源商业系统； PosterOmni（CVPR 2026）：单一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务，更接近”基于参考稿工作的智能设计助手”； PosterReward（CVPR 2026）：首个专门面向海报质量评估的奖励模型，在专项评测基准上达到 86% 准确率，远超现有基线，既驱动生成模型持续进化，也承担线上质检把关。三者形成「生成-编辑-评判」的技术闭环，相互支撑、持续自我进化。目前三项工作均已全部开源于 MeiGen-AI 仓库，并在美团外卖套餐图生成、品牌 IP 袋鼠团团、点评信息流治理等多个真实业务场景中完成落地。本文将系统拆解这套技术体系的核心思路、关键创新与实战经验。一、背景与挑战 1.1 业务背景：百万商家的”创意平权”难题美团连接数百万商家与数亿消费者，海报作为核心视觉营销载体，贯穿商家日常运营全场景。然而，百万商家普遍面临四重困境：设计资源匮乏：专业营销海报外包动辄数百至数千元，中小商家难以承受；即便是大型连锁品牌，面对多城市、多门店的差异化营销需求，设计师团队同样捉襟见肘。时效性要求苛刻：天气突变、突发热点、临时促销等本地生活场景要求海报”分钟级”交付，传统设计流水线 1–3 天的周期已严重脱节。内容同质化严重：大量商家依赖固定模板做简单文字替换，海报千篇一律，在信息爆炸时代难以触达消费者，营销转化率持续走低。批量生产质量失控：从精雕细琢转向规模化生产后，如何保证每张海报达到商业可用标准，成为新的运营难题。 1.2 技术挑战：高质量海报生成的多维难题 AIGC 为上述问题提供了新思路，但高质量海报生成远非简单的文生图任务，面临五大相互交织的技术挑战。挑战一：精准的文字渲染海报文字要求”零容错”——任何错误、缺失或模糊都导致整张海报不可用。主流扩散模型在多行文字、中文字符和小字号文本上仍有明显短板，中文场景下难度尤甚。挑战二：和谐的版式布局优秀海报遵循对比、重复、对齐、亲密性等设计原则，这种”设计感”难以规则化，更多依赖对大量优秀作品的隐式学习，是一个开放性难题。挑战三：统一的美学风格色彩和谐、视觉层次、品牌调性等多维度共同构成美学判断，且不同行业标准迥异：餐饮要”食欲感”，美妆要”精致感”，科技要”未来感”。模型需在保持整体美学水准的同时适配多样化风格需求。挑战四：多任务场景的统一真实设计需求横跨”局部编辑”（文字排版叠加、局部填充）和”全局创作”（风格迁移、版式重组）两大范畴，如何在单一模型中同时支持所有场景，是模型设计和训练策略上的重大挑战。挑战五：质量评估的可量化现有图像质量指标（FID、IS 等）无法捕捉海报特有的排版质量、文字准确性和设计规范性，而人工评估成本高昂且难以规模化。我们需要一套既能驱动模型优化（作为 RL 奖励信号），又能承担线上质检的自动化评估体系。 1.3 我们的解法：构建”生成-编辑-评判”技术闭环面对上述挑战，我们团队围绕海报生成构建了一套完整的技术体系，覆盖基础模型能力提升、多任务统一模型融合和质量评估模型三大核心环节，形成了”能生成、能编辑、能评判”的技术闭环。能生成：端到端高美感海报生成，精准文字渲染；技术方案→ PosterCraft｜Code（ICLR 2026）能编辑：六大任务统一，局部编辑与全局创作融合；技术方案→ PosterOmni｜Code（CVPR 2026）能评判：真实海报结构化解析 + 生成海报偏好评估；技术方案→营销海报结构化 + PosterReward（CVPR 2026）…
Read More
从月球漫步到赛博都市，WBench 测出了世界模型的边界

June 16, 2026

·

user

AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里，亲自感受一下？点击查看视频像这样，在月球上自由漫步，是什么感觉？它们是真的理解了世界，还是仅仅在模仿视频？目前的模型距离这个目标还有多远？为了彻底搞清这个问题，美团 LongCat 团队提出了 WBench，它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”，能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中，到底卡在了哪里。我们用 WBench 对 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）进行了全面”扫描”，最核心的发现可以总结为以下几点：不存在全能模型：不同模型各有专长，文本驱动模型更擅长理解场景，而专用世界模型在交互控制上突出。导航是一项独立的技能：模型的视频画质好坏，和它的导航控制能力基本没关系。多轮交互是核心难点：所有模型在连续交互后表现都会变差，导航能力尤其严重，平均分下降了整整 33 点。开源模型表现出色：在一些特定能力上，开源模型甚至超过了闭源模型，比如 HY-World 1.5 的导航能力在所有模型里突出。 01 WBench 是如何测出这些问题的？能得出这些结论，得益于 WBench 的核心设计。我们认为，一个强大的世界模型评测框架，应包含四大核心要素：世界模型评测框架 = 世界定义 (World Definition) + 指令集 (Instruction Set) + 统一交互接口 (Unified Interaction Interface) + 评测套件…
Read More
ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

June 9, 2026

·

user

ACL（Annual Meeting of the Association for Computational Linguistics）是计算语言学和自然语言处理（NLP）领域的国际顶级学术会议。自 1962 年创办以来，ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会，汇聚了来自全球学术界和工业界的顶尖研究者。本文解读了被 ACL 顶会收录的其中 6 篇论文，技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域，欢迎大家一起交流学习。 01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks CoreCodeBench：通过细粒度仓库级任务解耦代码智能论文下载：PDF 论文简介：本论文提出了 CoreCodeBench，一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架，从 12 个 Python 开源库自动生成 1,524 个结构化任务，涵盖开发、修复、测试驱动开发等多种软件工程场景，有效区分不同认知负载并动态调整任务复杂度。实验表明，其有效性达 78.55%，显著优于现有方法，揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测，模拟真实开发环境，具备高自动化、强鲁棒性和可复现性，为代码智能评测提供了更全面、精准的框架。 02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures SOP-Maze：评估大语言模型在复杂业务标准操作流程上的表现…
Read More
突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

June 4, 2026

·

user

音频生成技术正在经历一场全新的范式迁移——从传统级联架构，逐步向端到端生成范式演进。长期以来，主流的做法是”曲线救国”：合成系统先将音频压缩成梅尔频谱图等中间表征，再依赖神经声码器”翻译”回波形。每一次转换都带来信息损失与误差累积，最终丢失了最需要保留的细腻音色与个性化细节。能不能让 AI 直接学会声音本身的规律，跳过中间环节？为破解这一技术瓶颈，美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中，我们彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音（Text-to-Speech, TTS），从根源阻断数据转换的级联误差。另外，我们做了两个关键改进：首先，我们识别并纠正了一个长期存在的”训练-推理不匹配”问题；其次，我们用自适应投影引导（APG）取代了传统的无分类器引导（CFG），从而大幅提升了最终的语音生成质量。结果表明，LongCat-AudioDiT 在 Seed 基准测试中取得当前最优（SOTA）的零样本语音克隆性能，同时保持了具有竞争力的可懂度。其中 LongCat-AudioDiT-3.5B 模型，在 Seed-ZH 测试集的说话人相似度（SIM）指标提升至 0.818，Seed-Hard 测试集达到 0.797，超过了 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等知名模型，验证了波形空间直接生成范式的有效性。今天，我们将 LongCat-AudioDiT（1B/3.5B）完整开源： Paper: https://arxiv.org/abs/2603.29339v1 GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT 接下来，我们将为您拆解 LongCat-AudioDiT 的核心技术创新。一、波形潜在空间直接生成架构：规避中间表征的信息衰减瓶颈业界主流 TTS 系统长期受困于”多阶段”的复杂流程：先预测中间声学特征（如梅尔频谱），再依赖一个独立的神经声码器将特征”翻译”成最终波形。这种”预测+翻译”的范式，本质上是在两个不同空间里”传话”，必然会累积误差，导致最终合成的声音丢失了高保真、个性化的细节——而这恰恰是零样本语音克隆最需要保留的部分。为此，我们构建了全新的 LongCat-AudioDiT 架构。其核心逻辑非常简单：只用一个波形变分自编码器（Wav-VAE）和一个扩散 Transformer（DiT），在波形隐空间里完成声音的压缩、建模与重建。 1.1 Wav-VAE：为波形量身定制的压缩器 Wav-VAE 作为一个全卷积音频自编码器，它将原始波形压缩为紧凑的连续隐向量。其设计蕴含了多项关键创新：高效的下采样与多尺度建模：编码器通过多级 Oobleck 块实现层级下采样，每个块内堆叠了带空洞卷积的残差单元，能够捕获从局部到全局的时序依赖。最终将 24kHz 的波形压缩到约 11.7Hz 的帧率，压缩比超过…
Read More