DeepSeek 联合北大发布 DSpark 推理加速框架:V4 模型推理速度提升 60%-85%

6月27日,DeepSeek 联合北京大学发布了 DSpark 推理加速框架。它不算一个新模型,就是在 DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(284B 参数)上挂了个推测解码模块。

不是什么新模型

DeepSeek 在 Hugging Face 上写得挺清楚:DeepSeek-V4-Pro-DSpark 和原来的 V4-Pro 是同一个 checkpoint,多挂了一个草稿模块。API 模型名也没变,官方 API 上还是 deepseek-v4-prodeepseek-v4-flash。DSpark 主要面向自部署场景。

速度提升数据

具体数据看并发场景:

这些数字来自线上负载,不是在实验室跑 benchmark 跑出来的——DSpark 已经部署在 DeepSeek 的实际生产流量中。

原理:推测解码

大模型生成 token 是一个接一个来的,每一步都要跑一次完整的前向传播。对 V4-Pro 这种 1.6T 参数的 MoE 模型(每步激活 49B 参数),这个成本不算低。

DSpark 的做法是加一个小的草稿模型,一口气生成一批候选 token,让主模型并行验证。验证通过的直接输出,被拒绝的退回逐步解码。DSpark 用的是半并行生成加自适应验证——同时生成多个候选 token,只对看起来靠谱的部分做选择性验证。

开源生态:DeepSpec

DeepSeek 发了论文(arXiv:2606.19348),也开源了配套的训练评估代码库 DeepSpec(MIT 协议)。

DeepSpec 支持三种草稿算法:

  1. DSpark — 这次新发布的
  2. DFlash — 已有的块扩散式草稿方案
  3. Eagle3 — 第三方方案

代码库覆盖了从数据准备到训练到评估的完整流程,配置文件适配了 Qwen3-4B 和 Gemma4-12B 等目标模型。DeepSeek 说在 Qwen 和 Gemma 上也测试过,这套优化方法不限于 V4 系列。

V4-Pro-DSpark 的权重已在 Hugging Face 上线,推理示例代码也公开了。

怎么部署

Hugging Face 上提供了四种集成方式,主流方案是 vLLM 和 SGLang:

# vLLM
vllm serve "deepseek-ai/DeepSeek-V4-Pro-DSpark"

# SGLang
python3 -m sglang.launch_server \
  --model-path "deepseek-ai/DeepSeek-V4-Pro-DSpark" \
  --host 0.0.0.0 --port 30000

需要注意一点:V4 的 DSpark 权重没有附带 Jinja 聊天模板,处理消息格式需要用 DeepSeek 的 encoding_dsv4 Python 工具包。直接调 apply_chat_template() 可能跑偏。

局限性

说点实在的:

谁该关心

如果你自己部署了 V4-Pro 或 V4-Flash,按 GPU 小时付费,DSpark 能让同样的硬件服务更多请求。跑批量评估、生成合成数据、做高并发对话的场景收益最明显。

如果只用 DeepSeek 官方的托管 API,等他们自己上线就好——API 模型名没变,后端升级不影响调用。

相关链接