NewsWWW

美团 LongCat 开源 General 365：树立推理评测新标尺

June 4, 2026

·

user

大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手，仿佛已经进化出了“人类最强大脑”。但与此同时，如果你问大模型：“离洗车店只有 50 米，我是开车去还是走路去？”。这些号称满分推理的模型，依然会一本正经地为你规划导航路线。这种看似知识丰富，但没常识的现象，正是当前大模型评测的死穴：大模型虽然擅长记忆复杂的公式，却常常连一道简单的逻辑题都答不对。基于此，美团 LongCat 团队正式发布 General 365。我们发现，在对 26 款主流模型的实测中，目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%，而绝大多数模型甚至没能摸到 60 分的及格线。这份基准将焦点从“学科推理”拓展到“通用推理”，第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。 01 研究背景：大模型真的会“思考”吗？过去两年，大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上，头部模型在各大题库上甚至逼近满分。然而，学科推理得分高，并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配，而非可泛化的逻辑推演能力。现有通用推理基准（如 BBH、BBEH）面临两大瓶颈：任务模板化导致逻辑同质严重，性能饱和导致区分度断崖式下降。 General 365 的设计目标由此明确：将背景知识限定在 K-12 水平，显式解耦推理能力与专业知识，系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征：高多样性：365 道原创种子题目及 1095 个扩展变体，全面覆盖八大挑战类型，避免重复特征与死记硬背；高挑战性：SOTA 模型在此基准上也仅能勉强及格；聚焦推理：知识范围严格限定在 K-12，纯粹衡量逻辑推理，而非知识检索；严格人工质检：全量题目均经过人工审核，覆盖题目设计、推理轨迹与最终答案；精准评分：采用混合规则与模型的打分方法，人工抽样验证，评分准确率达 99.6%。 02 设计理念：通用推理能力如何被量化？ 2.1 八大维度，圈定通用推理的“考纲” 要衡量通用推理，首先要明确它包含哪些核心挑战？General 365 将其拆解为八个维度，每道题至少对应其一：复杂约束：多条件交织下的全局一致性维护；分支与枚举：解空间的系统性遍历与边界覆盖；时空推理：空间关系与时间序列的动态推演；递归与回溯：假设—验证—推翻的迭代纠错；语义干扰：跨越认知陷阱，严格遵循题设规则；隐式信息：从碎片线索推断底层逻辑结构；最优策略：多路径方案中的效用权衡与规划；
Read More
从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

June 4, 2026

·

user

美团正式开源 LongCat-Video-Avatar 1.5，作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里，也能稳定、自然地输出高质量内容，让数字人视频生成从彩排室的完美演练，走向千人千面的真实舞台。为了让数字人”更稳定、更自然”地动起来，我们在以下三方面实现能力升级：基础体验全面商用化：在长句、快语速、歌唱等复杂语音输入下，唇部运动更精准平滑，面部表情、头部姿态和肢体动作更协调，整体表达自然稳定；支持更丰富的场景：借助高质量数据体系，模型能稳定处理真人、动漫、动物等多类主体，多人对话更加自然且准确区分说话者与聆听者；推理部署更高效：采用 DMD 蒸馏至 8 步生成，效率提升约 15 倍，更适配规模化应用和真实业务场景。查看演示视频开源链接 GitHub：https://github.com/meituan-longcat/LongCat-Video HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report：https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ ModelScope：https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary 一、不止于“嘴动”，更有真实的交互力与戏剧感 1.1 音频编码器升级：让口型更精准自然在音频特征提取环节，我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验，让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律，准确理解”每一刻应该如何开口”。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同，大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。综合评测中，LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型，基础生成能力满足商用需求。查看演示视频 1.2 高质量数据体系：让模型在复杂场景中应对更自如商业场景中数字人形态多样（真人、虚拟偶像、动漫角色甚至动物），要求模型具备强开放域泛化能力。数据质量直接决定生成上限，为此我们构建了一套多阶段数据处理流程：离线标注：提取人脸关键点、人物数量、身体构图、音画同步等属性。在线验证：自动过滤转场、黑帧、闪烁、跳帧等低质量片段。同时，我们专门构建了三类增强数据来应对虚拟人生成的典型难点：多人数据：通过主动说话人检测，保留同一时刻只有单一说话人发声的片段，从源头降低多人场景的音画歧义。静默数据：筛选人物未说话的视频，让模型学习无语音状态下自然的微表情、视线与身体动态，避免非说话角色嘴部乱动。情绪数据：结合多模态初筛与帧级情绪识别精筛，注入情绪变化过程，使模型更好理解语音、表情与身体反应的关联。这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。查看演示视频 1.3 逐帧级 GRPO 偏好对齐：让多人交互场景更生动自然在高质量数据的基础上，我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO（Group Relative
Read More
[职场话题] 已经出现每个月的 AI 消耗超过自身工资了

June 3, 2026

·

user

如题，有人月超过 5000+u 的 Claude.现在被要求 z 参与 token 节省培训。
Read More
[推广] 福利： 7 个住宅 IP 兑换码，新用户专享

June 3, 2026

·

user

回帖自取，仅限新用户兑换，每人限领一个，重复使用封号。领了麻烦回帖告知用了哪个，方便别人。 🎁 兑换码（以下共 7 个，四选一即可，先到先得） ZYW6-BRND-APBF RVGX-XFTQ-SUNL L838-6ZHY-JDY7 823C-FNPH-5SPV PCMH-2C4M-JCEM ZAR8-6H6G-GL9V KAVS-ZL5T-W87C ⚠️ 注意：每个兑换码仅能使用一次，如输入时提示无效，说明已被其他用户领走，请尝试其他码。 🔗 怎么用注册 👉 辣椒 HTTP （新用户）登录后台 → 「用户中心」→「 CDK 兑换」输入上方任意一个码，动态住宅流量到账注册时填邀请码 ff8888 还能叠加流量包。 💡 关于辣椒 HTTP 住宅 IP 动态住宅 IP：5 元/GB ，支持 1-120 分钟会话粘性（数据采集、价格监控）静态长效 IP：9.9 元/个/7 天，IP 固定（多店铺、社媒账号） 9000 万+ 真实住宅 IP ，190+ 国家，城市级定位 99.9% 连通率，响应 <
Read More
[问与答] 和风天气是不是停止服务了？

June 3, 2026

·

user

手机上定位无法使用，无法添加城市，更新没反应。是不是停止服务了？
Read More
[程序员] Codex 登录貌似不需要验证码了

June 3, 2026

·

user

昨天 Codex 被强制下线了登录需要验证码刚刚经群友提醒又登录了一次不需要验证码了大家可以试试
Read More
[推广] 做了个 AI 问卷调研工具 https://wj.pro 前 100 位 V 友送一个月会员

June 3, 2026

·

user

各位 V 友好。我们做了个 AI 调研工具叫问卷派（https://wj.pro），简单讲就是想把”出问卷 → 找样本 → 跑分析”这一整套从专业工具搬到一段对话里。具体能干嘛：跟 AI 说一句话，它帮你出问卷，NPS 、四象限矩阵这种复杂题型也支持找不到用户跑调研？用自然语言描述目标人群（比如”一线城市 25-35 岁 iOS 用户”），系统匹配真实样本投放数据回收后 AI 直接出分析报告，省掉自己拼 PPT 的功夫随机题、条件逻辑、皮肤更换这些常规需求都有可能适合的场景：独立开发者验 PMF / 做用户访谈前的筛选 ToC 产品同学做产品调研学生写论文要发问卷设计师 / PM 做用户研究地址：https://wj.pro 欢迎拍砖，尤其想听：题型够不够用 AI 生成的问卷质量到底行不行调研，样本库，数据分析等功能是否符合预期前 100 位通过本帖注册的用户，送一个月专业版的会员。，注册之后可以在个人中心复制 id ，或站内信发我昵称 or id 都行。24h 内会手动开通，谢谢各位。
Read More
[问与答] claw 要倒闭了，求推荐云服务器

June 2, 2026

·

user

需求 2c 2g 40g ，亚太地区最好，其他地区也行价格能稍微低一点更好，主要是搭建一些个人的服务，偶尔做一下应急代理
Read More
[问与答] loon 配置 wireguard 后无法代理问题请教

June 2, 2026

·

user

大佬们，刚下载 loon 。用的可莉的那些配置。用 Vmess 的话可以正常的使用。但是用 wireguard 的话是无法代理的，节点是没有问题的，小火箭可以正常代理，且配置完成后，UDP 测试也是通过的，但是科学上网的时候无法使用的。是哪里配置有问题么？请各位大佬指教下
Read More
[问与答] 刚才选设计图标，感觉年轻人已经不知道电话图标的含义了，直接用手机图标？

June 2, 2026

·

user

目前几大热门图标库都还有电话听筒的图标📞，用来表示通话，联系方式之类的。但是现实是现在除了一些办公室和一些特定的场景，很少用到这样拿起听筒，按下机械号码然后通话的模式了，也就是年轻人从接触远程通话就是手机，或者视频通话。比如现在的小朋友，他们意识里面的通话就是拿着一块屏幕说话。同样的，还有购物付款也是，小孩说，拿手机去照一下就可以了，基本没有 80 ，90 后一代拿着现金钞票去买东西找钱的体验了。之前还听说年轻大学生，不会用电脑，不会解压文件，现在想想，确实是那样。时代变化太快了。看单位里老专家早年写的技术报告，一笔一划全是手写，真是厉害，有些还用美工笔写一些艺术字，加粗字做标题，可谓艺术品。配图之类的，都是手画。现在打开文字处理图片处理软件无限制擦除重写的工作模式和上一辈人都概念也完全不一样了。
Read More