MTP 多 Token 预测来了：llama.cpp 本地推理速度翻倍

最近本地 AI 社区最热闹的事，就是 MTP（Multi-Token Prediction，多 Token 预测）在 llama.cpp 上的落地。简单来说，推理速度翻倍了。不是纸面上的翻倍，是真真切切的每秒 token 数翻倍。

MTP 是什么

传统的 LLM 推理是一次预测一个 token——它算完一个字，才知道下一个字是什么。就像一个人只能一个字一个字地念书。

MTP 的思路不一样：让模型一次预测未来好几个 token。训练的时候就让模型学会同时预测接下来的 n 个 token，推理的时候用这些预测做投机解码（speculative decoding），相当于模型先猜一把后续的内容，猜对了就跳着走，不用每个字都重新算。

Meta 最早在 2024 年的论文《Better & Faster Large Language Models via Multi-token Prediction》里提出这个想法。当时大家觉得挺有道理，但真正落地到推理引擎里，是最近的事。

llama.cpp 在最近的版本里加入了对 MTP draft model 的支持。社区测试显示，配合 Qwen 3.x 系列的模型，推理速度提升非常明显。

Qwen 3.x 系模型本身就在训练时做了 MTP 支持——模型原生就带了一个 draft head，不需要额外训练一个投机解码模型。这意味着你只要升级到最新版 llama.cpp，直接加载 Qwen 3.x 的 GGUF，MTP 就自动生效了。

有几个关键数字流传得很广：

Qwen3.5-27B + MTP：有人在 RTX 3090 上跑出了 207 tok/s，比不开 MTP 快了将近一倍
Qwen 3.x 系的 accept rate：社区的测试显示，MTP draft 的接受率在 70-90% 之间。这意味着大部分预测都是对的，真正需要重新计算的 token 只有一小部分
内存开销几乎可以忽略：MTP draft head 只是模型顶部多了几层线性层，对显存占用影响极小