ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式
·
ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。 本文解读了被 ACL 顶会收录的其中 6 篇论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域,欢迎大家一起交流学习。 01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks CoreCodeBench:通过细粒度仓库级任务解耦代码智能 论文下载:PDF 论文简介: 本论文提出了 CoreCodeBench,一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库自动生成 1,524 个结构化任务,涵盖开发、修复、测试驱动开发等多种软件工程场景,有效区分不同认知负载并动态调整任务复杂度。实验表明,其有效性达 78.55%,显著优于现有方法,揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更全面、精准的框架。 02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现