美团 LongCat 开源 General 365:树立推理评测新标尺
·
大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。 这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。 基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。 这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。 01 研究背景:大模型真的会“思考”吗? 过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。 General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征: 高多样性:365 道原创种子题目及 1095 个扩展变体,全面覆盖八大挑战类型,避免重复特征与死记硬背; 高挑战性:SOTA 模型在此基准上也仅能勉强及格; 聚焦推理:知识范围严格限定在 K-12,纯粹衡量逻辑推理,而非知识检索; 严格人工质检:全量题目均经过人工审核,覆盖题目设计、推理轨迹与最终答案; 精准评分:采用混合规则与模型的打分方法,人工抽样验证,评分准确率达 99.6%。 02 设计理念:通用推理能力如何被量化? 2.1 八大维度,圈定通用推理的“考纲” 要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一: 复杂约束:多条件交织下的全局一致性维护; 分支与枚举:解空间的系统性遍历与边界覆盖; 时空推理:空间关系与时间序列的动态推演; 递归与回溯:假设—验证—推翻的迭代纠错; 语义干扰:跨越认知陷阱,严格遵循题设规则; 隐式信息:从碎片线索推断底层逻辑结构; 最优策略:多路径方案中的效用权衡与规划;