LongCat-2.0:美团今天开源的万亿参数编程模型

2026 年 6 月 30 日,美团 LongCat 团队发布了 LongCat-2.0,一个专为 Agentic Coding 设计的万亿参数开源 MoE 模型,原生支持 100 万 token 上下文,在 SWE-bench Pro 上跑到了 59.5 分,超过了 GPT-5.5 和 Claude Opus 4.6。

核心规格

项目参数
总参数量1.6T(1.6 万亿)
每 token 激活33B–56B(动态),平均 ~48B
上下文长度1M tokens(原生)
架构MoE(Mixture of Experts)
训练数据30T+ tokens(中英多语言 + 代码)
算力集群50,000 卡国产算力集群

三项关键技术

LongCat Sparse Attention(LSA)— 百万级上下文

传统 Transformer 的注意力复杂度是二次的,token 一多就记不住前面的内容。LSA 用稀疏注意力代替全局注意力——只挑关键信息来关注,复杂度从 O(n²) 降到了 O(n)。模型可以在 100 万 token 范围里精确检索信息,相当于一次看完一套完整代码库。

Zero-Computation Experts + ScMoE

代码任务里,给变量命名和推导递归算法需要完全不同的计算量。LongCat-2.0 做到了 token 级动态激活:

推理时既不浪费算力,该花的地方也不含糊。

MOPD 多专家融合

LongCat-2.0 从 SFT 检查点出发,分叉训练三类专家,再通过 MOPD 在国产加速器上蒸馏成一个统一模型:

专家类型能力
Agent 专家工具调用、API 解析、自我纠错
Reasoning 专家多跳推理、STEM 推理、自适应计算
Interaction 专家指令跟随、人类对齐、幻觉抑制

推理时由门控网络根据任务类型动态路由到最合适的专家组合,不是简单合并参数了事。

基准测试

基准LongCat-2.0对比
SWE-bench Pro59.5超过 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)、Claude Opus 4.6(57.3)
SWE-bench Multilingual77.3和 Claude Opus 4.6(77.8) 差不多
Terminal-Bench 2.170.8真实终端命令交互
RWSearch78.8搜索 Agent 任务
FORTE73.2生产力场景
BrowseComp79.9复杂浏览与检索

实际应用

根据官方放出的案例,LongCat-2.0 能做的事包括:

国产算力训练

LongCat 团队从 2023 年开始搞国产算力,三年从几千卡扩到 5 万卡。解决了算子适配、通信优化和分布式稳定性几个大头问题:

怎么用

目前已经可以通过几个渠道用上:

  1. longcat.ai — 在线体验
  2. OpenRouter — API 访问(全球 Top 3 调用量模型)
  3. LongCat API 平台 — 兼容 OpenAI / Anthropic API 格式
  4. 模型权重即将在 Hugging Face / GitHub 开源

几点想法

LongCat-2.0 有几个地方我觉得挺有意思。这是第一个在 5 万卡国产集群上跑通全流程的万亿参数模型,对国内 AI 基础设施来说是个实打实的验证。它选的方向也够准——不追通用对话的 SOTA,专门做 AI 编程,SWE-bench Pro 59.5 的成绩确实有说服力。MOPD 的分治思路也挺聪明,分别训 Agent/Reasoning/Interaction 专家再融合,比从头训一个大模型省事不少。LSA 稀疏注意力也让百万 token 不再只是纸上谈兵,能真的当代码库级理解来用了。

如果你在找一个能帮你写代码、修 bug、重构项目的开源模型,LongCat-2.0 值得试试。