一、从"氛围编程"到"长程任务":AI工程能力的范式跃迁
要理解GLM-5.1的意义,需要先理解AI编程能力正在经历的清晰跃迁路径:
| 阶段 | 核心特征 | 典型时长 |
|---|---|---|
| AI Coding | 程序员的效率工具,局部提效 | 分钟级 |
| Vibe Coding | 更大众的表达方式,想法快速变原型 | 数十分钟 |
| Agentic Engineering | AI像工程师一样自主规划、执行、迭代 | 数小时 |
| Long-Horizon Task | 像资深专家一样持续工作、交付成果 | 8小时+ |
GLM-5.1正是为第四个阶段而生。智谱团队认为,"能工作多久"将取代"有多聪明",成为衡量模型智能的下一阶段标准。
什么是长程任务?它是指需要多轮交互、跨步骤推进、记住前序约束、具备状态记忆的端到端复杂项目交付任务。在过去,即使是最强的开源模型,在面对复杂任务时也往往在早期取得收益后便陷入瓶颈——它们会反复尝试已知的优化手段,却无法在一条路走不通时主动切换策略。
GLM-5.1打破了这一局限。它是目前全球唯一达到8小时级持续工作的开源模型,也是除Claude Opus 4.6外少数具备这一能力的模型。在METR榜单同等评估标准下,GLM-5.1能够在单次任务中独立、持续地工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。
二、硬核数据:开源模型的历史性突破
编程能力:开源史上最强
GLM-5.1的成绩单几乎可以说是"把牌桌掀了":
| 基准测试 | GLM-5.1 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| 编程评测总分 | 45.3 | 47.9 | — |
| SWE-Bench Pro | 58.4 🏆 | 57.3 | — |
| SWE-bench Verified | 77.8% | — | — |
| Terminal-Bench 2.0 | 63.5 | 65.4 | — |
| NL2Repo | 42.7 | 49.8 | — |
三项最具代表性的代码评测基准(SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo)综合平均分,GLM-5.1取得全球模型第三、国产模型第一、开源模型第一的成绩。
相比上一代GLM-5的35.4分,GLM-5.1在编程评测上飙升近10分,提升幅度高达28%——这是一次代际级的飞跃。
推理能力:全面对齐
| 基准测试 | GLM-5.1 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| AIME 2026 | 95.3 | — | 98.7 |
| HMMT Feb. 2026 | 82.6 | 84.3 | 91.8 |
| GPQA-Diamond | 86.2 | 91.3 | — |
| HLE(带工具) | 52.3 | 53.1 | — |
综合定位
智谱官方的定位非常明确:GLM-5.1综合能力全面对齐Claude Opus 4.6,成为首个在综合能力上实现全面对齐的中国模型,并跻身全球开源模型前列。
三、三大长程任务实战:你睡觉的8小时,模型上班的8小时
智谱团队在官方博客中详细披露了三项极具说服力的长程任务实测场景,这些不是简单的代码补全,而是需要持续数小时的完整工程闭环。
场景一:8小时从零构建Linux桌面
白天画好架构草图,睡前交给GLM-5.1,早上醒来已产出完整系统。历时8小时整,执行1200多步操作,20分钟时产生第一个有意义的成果,8小时后产出了一套功能完善的Linux桌面系统——包含完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等,配套文件4.8MB。这相当于一个4人团队一周的开发工作量,全程无人类参与测试或审查。
场景二:655次迭代打破向量数据库优化瓶颈
向量数据库是AI搜索和推荐系统背后的核心引擎。GLM-5.1不是只会微调参数——它一路自主完成了从全库扫描→IVF分桶召回→半精度压缩→量化粗排→两级路由→提前剪枝的整套优化链条。在655轮迭代中,它持续自主跑Benchmark、定位瓶颈、调整方案,最终把查询吞吐从3108 QPS推到21472 QPS,提升到初始版本的6.9倍。
优化轨迹呈现典型的"阶梯型":模型在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析日志、定位瓶颈,然后跳转到结构性不同的方案。每一次跳跃伴随着短暂的性能下降,但随后创新高——这个"打破-修复"的循环本身就是有效优化的标志。
场景三:1000轮工具调用优化真实ML负载
在涵盖50个真实机器学习计算负载的KernelBench Level 3优化基准上,GLM-5.1对每个负载独立进行持续优化。在超过24小时的不间断迭代中,它自主完成了多轮编译—测试—分析—重写循环,最终取得3.6倍几何平均加速比,显著高于torch.compile max-autotune模式的1.49倍。
模型能自主编写定制Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合、shared memory tiling与CUDA Graph优化——这些原本是高度依赖专家经验的领域。
核心洞察:越跑越强
与前代模型(包括GLM-5)在早期就耗尽能力不同,GLM-5.1运行时间越长效果越好。在KernelBench上的对比显示,GLM-5在前期上升较快但很早就趋于平坦,而GLM-5.1持续上升得更久,最终达到GLM-5的1.4倍。关键在于模型能把"有效优化"的窗口延伸多远。
四、技术深度解析:是什么让GLM-5.1如此强大?
GLM-5.1是GLM-5的后训练强化升级版,架构和参数规模相同,差异主要在训练策略和优化重点。
核心规格
| 参数项 | 规格 |
|---|---|
| 总参数量 | 744B(MoE架构,256个专家) |
| 活跃参数 | 40B |
| 上下文窗口 | 200K tokens |
| 最大输出 | 128K tokens |
| 架构特性 | MLA + DeepSeek Sparse Attention |
| 开源协议 | MIT |
关键创新一:DeepSeek Sparse Attention(DSA)
传统Transformer的注意力计算复杂度为O(L²),处理128K上下文需要约160亿次计算。DSA通过动态细粒度筛选机制替代密集计算:
- 索引器先行:用小型神经网络快速扫描全部token,计算重要性得分
- Top-k筛选:仅保留top-2048个最相关token
- 稀疏注意力:仅对筛选出的token进行完整注意力计算
这使得128K序列的计算量降至约8亿次,理论降低20倍,实测降低1.5-2倍GPU成本。关键在于,所有token仍被索引器扫描,只是不参与核心计算——不丢失任何长距离依赖,实现真正的无损稀疏。
关键创新二:Slime异步强化学习框架
这是智谱自研的RL训练框架(已开源),名字叫"史莱姆"(Slime)。它通过三大机制实现长程任务不退化:
- 生成与训练解耦:推理引擎和训练引擎部署在不同GPU上,推理引擎持续生成轨迹,训练引擎异步采样更新策略,消除同步瓶颈
- 多任务协调器:中央服务器管理不同任务服务,支持1000+并发rollout,实现跨任务平衡数据收集
- Token-in-Token-out(TITO):直接使用推理引擎生成的精确token流构建学习轨迹,避免重新分词带来的不匹配问题
关键创新三:渐进式对齐策略
后训练遵循四阶段渐进路径:
- 多任务SFT:引入复杂交错思考模式,扩大Agent和编码数据规模
- 推理与Agent专项RL:混合数学、科学、代码、工具集成推理四个领域
- 通用RL:多维优化目标(正确性、情商、特定任务能力)+混合奖励系统
- 跨阶段在线蒸馏:缓解能力退化,确保模型在各阶段的能力不丢失
关键创新四:三种思考特征
GLM-5.1支持三种不同的思考模式,为不同场景提供最优策略:
- 交错思考:每次响应和工具调用前进行思考,提升指令遵循度
- 保留思考:在Coding Agent场景中自动保留多轮思考块,复用已有推理
- 轮级思考:按需启用/禁用推理,轻量请求降低延迟,复杂任务提升精度
五、价格杀手锏:94.6%的能力,20%的价格
技术牛不牛是一回事,但对于大多数开发者和企业来说,价格才是真正的决策变量。GLM-5.1的定价堪称降维打击:
| 模型 | 输入价格(/百万token) | 输出价格(/百万token) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| Claude Opus 4.6 | $5.00 | $25.00 |
| GPT-5.4 | $2.50 | $15.00 |
GLM-5.1的输入成本是Claude Opus的1/5,是GPT-5.4的1/2.5;输出成本更夸张——仅为Claude的1/7.8,GPT-5.4的1/4.7。
对于GLM Coding Plan订阅用户,最低Lite计划仅需$30/季度(折后$27),即可获得3倍于Claude Pro的使用额度,且所有计划均支持GLM-5.1。
六、开源生态与国产芯片适配
GLM-5.1以MIT许可证完全开源,已在HuggingFace、ModelScope、GitHub三大平台发布,并提供FP8量化版本。
本地部署支持
| 推理框架 | 最低版本 |
|---|---|
| vLLM | 0.19.0+ |
| SGLang | 0.5.10+ |
| KTransformers | 0.5.3+ |
| Transformers | 0.5.3+ |
| xLLM | 0.8.0+ |
国产芯片Day 0适配
沐曦股份曦云C系列GPU已完成GLM-5.1的Day 0全量适配,实现"开箱即用、性能无损"。此前GLM-5已全面适配华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、壁仞和天数智芯等七大主流国产芯片平台。
在单台国产算力节点上,GLM-5.1的性能已可媲美双GPU国际集群,长序列场景下部署成本降低50%。
编码工具集成
GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite),支持:
- Claude Code(默认手动切换)
- Cursor、Cline、OpenCode、Kilo Code、Roo Code、Droid等20+主流开发工具
- Z Code GUI界面:支持远程SSH开发和手机发起任务
七、市场反响与战略意义
GLM-5.1发布当天,智谱AI(港股代码02513.HK)股价单日上涨**11.15%**至742.5港元,成交额达10.25亿港元,GLM Coding Plan瞬间售罄并进入排队候补状态。这验证了市场对高质量国产AI模型的强劲需求。
更深层的战略意义在于:
- 开源与闭源的差距急剧缩小:从GLM-5与Opus 4.6的12.5分差距(35.4 vs 47.9),缩减至仅2.6分(45.3 vs 47.9),首次在SWE-Bench Pro上超越Claude Opus
- 长程任务开启新赛道:当模型能像资深工程师一样持续8小时工作,传统Benchmark已不足以衡量其价值
- 国产AI自主可控:744B MoE模型的全栈国产芯片适配,体现了技术自主可控的战略布局
八、局限与展望
仍存的挑战
- 推理维度差距:在GPQA-Diamond(86.2 vs 91.3)等深度推理基准上与顶级闭源模型仍有差距
- 长程任务中的错误累积:在链式任务中,某一步的次优修改可能在后续步骤中悄然破坏测试,GLM-5.1在多步链式任务上的表现与Claude Opus 4.5相比仍有较大差距
- 独立评测不足:除官方渠道外,主流第三方评测机构尚未发布完整的独立评测报告
未来方向
智谱团队的终极目标是全自治智能体(Autonomous Agent)——模型7×24小时不间断地分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。
正如智谱在博客中所写:
让模型跑8小时并不难,真正难的是让第8小时的工作仍然有效。
GLM-5.1是迈向这个目标的一步。此刻,尝试给它一个指令,然后离开8小时。
