DeepSeek 联合北大发布 DSpark 推理加速框架：V4 模型推理速度提升 60%-85%

6月27日，DeepSeek 联合北京大学发布了 DSpark 推理加速框架。它不算一个新模型，就是在 DeepSeek-V4-Pro（1.6T 参数）和 DeepSeek-V4-Flash（284B 参数）上挂了个推测解码模块。

不是什么新模型

DeepSeek 在 Hugging Face 上写得挺清楚：DeepSeek-V4-Pro-DSpark 和原来的 V4-Pro 是同一个 checkpoint，多挂了一个草稿模块。API 模型名也没变，官方 API 上还是 deepseek-v4-pro 和 deepseek-v4-flash。DSpark 主要面向自部署场景。

速度提升数据

具体数据看并发场景：

单用户生成速度：Flash 提升 60%-85%，Pro 提升 57%-78%
系统吞吐量：根据并发负载，提升幅度在 51% 到 400% 之间
DSpark 优于 Eagle-3 和 DFlash 等现有加速方案

这些数字来自线上负载，不是在实验室跑 benchmark 跑出来的——DSpark 已经部署在 DeepSeek 的实际生产流量中。

原理：推测解码

大模型生成 token 是一个接一个来的，每一步都要跑一次完整的前向传播。对 V4-Pro 这种 1.6T 参数的 MoE 模型（每步激活 49B 参数），这个成本不算低。

DSpark 的做法是加一个小的草稿模型，一口气生成一批候选 token，让主模型并行验证。验证通过的直接输出，被拒绝的退回逐步解码。DSpark 用的是半并行生成加自适应验证——同时生成多个候选 token，只对看起来靠谱的部分做选择性验证。

开源生态：DeepSpec

DeepSeek 发了论文（arXiv:2606.19348），也开源了配套的训练评估代码库 DeepSpec（MIT 协议）。

DeepSpec 支持三种草稿算法：

DSpark — 这次新发布的
DFlash — 已有的块扩散式草稿方案
Eagle3 — 第三方方案

代码库覆盖了从数据准备到训练到评估的完整流程，配置文件适配了 Qwen3-4B 和 Gemma4-12B 等目标模型。DeepSeek 说在 Qwen 和 Gemma 上也测试过，这套优化方法不限于 V4 系列。

V4-Pro-DSpark 的权重已在 Hugging Face 上线，推理示例代码也公开了。

怎么部署

Hugging Face 上提供了四种集成方式，主流方案是 vLLM 和 SGLang：

# vLLM
vllm serve "deepseek-ai/DeepSeek-V4-Pro-DSpark"

# SGLang
python3 -m sglang.launch_server \
  --model-path "deepseek-ai/DeepSeek-V4-Pro-DSpark" \
  --host 0.0.0.0 --port 30000

需要注意一点：V4 的 DSpark 权重没有附带 Jinja 聊天模板，处理消息格式需要用 DeepSeek 的 encoding_dsv4 Python 工具包。直接调 apply_chat_template() 可能跑偏。

局限性

说点实在的：

吞吐量数据看负载：51%-400% 这个区间跨度很大，实际效果跟你的 prompt 分布、硬件配置、并发量都有关系
不是质量升级：草稿被拒绝的时候要回退，最差情况可能比基线解码还慢
硬件门槛不低：V4-Pro 是 1.6T/49B 激活的 MoE 模型，加 1M 上下文，再加一层草稿模块，显存占用不小
训练成本高：DeepSpec 的数据准备阶段，光 Qwen3-4B 的目标缓存就需要约 38TB 存储，不是个人玩家能跑的规模
推理引擎需要适配：最新的草稿模块发布后需要时间被 vLLM/SGLang 完全支持，部署前要确认版本兼容性

谁该关心

如果你自己部署了 V4-Pro 或 V4-Flash，按 GPU 小时付费，DSpark 能让同样的硬件服务更多请求。跑批量评估、生成合成数据、做高并发对话的场景收益最明显。

如果只用 DeepSeek 官方的托管 API，等他们自己上线就好——API 模型名没变，后端升级不影响调用。