最近本地 AI 社区最热闹的事,就是 MTP(Multi-Token Prediction,多 Token 预测)在 llama.cpp 上的落地。简单来说,推理速度翻倍了。不是纸面上的翻倍,是真真切切的每秒 token 数翻倍。
MTP 是什么
传统的 LLM 推理是一次预测一个 token——它算完一个字,才知道下一个字是什么。就像一个人只能一个字一个字地念书。
MTP 的思路不一样:让模型一次预测未来好几个 token。训练的时候就让模型学会同时预测接下来的 n 个 token,推理的时候用这些预测做投机解码(speculative decoding),相当于模型先猜一把后续的内容,猜对了就跳着走,不用每个字都重新算。
Meta 最早在 2024 年的论文《Better & Faster Large Language Models via Multi-token Prediction》里提出这个想法。当时大家觉得挺有道理,但真正落地到推理引擎里,是最近的事。
llama.cpp 的 MTP 实现
llama.cpp 在最近的版本里加入了对 MTP draft model 的支持。社区测试显示,配合 Qwen 3.x 系列的模型,推理速度提升非常明显。
Qwen 3.x 系模型本身就在训练时做了 MTP 支持——模型原生就带了一个 draft head,不需要额外训练一个投机解码模型。这意味着你只要升级到最新版 llama.cpp,直接加载 Qwen 3.x 的 GGUF,MTP 就自动生效了。
有几个关键数字流传得很广:
- Qwen3.5-27B + MTP:有人在 RTX 3090 上跑出了 207 tok/s,比不开 MTP 快了将近一倍
- Qwen 3.x 系的 accept rate:社区的测试显示,MTP draft 的接受率在 70-90% 之间。这意味着大部分预测都是对的,真正需要重新计算的 token 只有一小部分
- 内存开销几乎可以忽略:MTP draft head 只是模型顶部多了几层线性层,对显存占用影响极小
为什么这件事重要
坦白说,过去一年本地推理的进展主要在量化和小模型上发力,架构层面的突破不多。MTP 是少数几个"不牺牲质量、不增加显存、白送速度"的优化。
对于在消费级显卡上跑模型的人来说,这意义很大:
- 原本跑不动的大一点的模型,现在可能跑得动了
- 原本觉得不够快的实时场景(语音助手、代码补全),现在体验好很多
- 配合 GGUF 的量化,本地推理的性价比一下子拉高了一大截
社区的动向
目前讨论最热的是 Qwen 3.x + MTP 的组合。一方面 Qwen 3.6 的编码能力在 27B 级别已经可以和更大规模的模型掰手腕,另一方面 MTP 让它的推理速度不输给更小的模型。
llama.cpp 的 GitHub 上相关的 PR 和 issue 讨论也很活跃。有人在尝试把 MTP 推广到其他模型系列上,但目前效果最好的还是 Qwen,因为它是原生训练时就带了 MTP 支持。
如果你手上有张还过得去的显卡,现在可能是个好时机重新试试本地推理了。




