DeepSeek 联合北大发布 DSpark 推理加速框架:V4 模型推理速度提升 60%-85%
6月27日,DeepSeek 联合北京大学发布了 DSpark 推理加速框架。它不算一个新模型,就是在 DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(284B 参数)上挂了个推测解码模块。
不是什么新模型
DeepSeek 在 Hugging Face 上写得挺清楚:DeepSeek-V4-Pro-DSpark 和原来的 V4-Pro 是同一个 checkpoint,多挂了一个草稿模块。API 模型名也没变,官方 API 上还是 deepseek-v4-pro 和 deepseek-v4-flash。DSpark 主要面向自部署场景。
速度提升数据
具体数据看并发场景:
- 单用户生成速度:Flash 提升 60%-85%,Pro 提升 57%-78%
- 系统吞吐量:根据并发负载,提升幅度在 51% 到 400% 之间
- DSpark 优于 Eagle-3 和 DFlash 等现有加速方案
这些数字来自线上负载,不是在实验室跑 benchmark 跑出来的——DSpark 已经部署在 DeepSeek 的实际生产流量中。
原理:推测解码
大模型生成 token 是一个接一个来的,每一步都要跑一次完整的前向传播。对 V4-Pro 这种 1.6T 参数的 MoE 模型(每步激活 49B 参数),这个成本不算低。
DSpark 的做法是加一个小的草稿模型,一口气生成一批候选 token,让主模型并行验证。验证通过的直接输出,被拒绝的退回逐步解码。DSpark 用的是半并行生成加自适应验证——同时生成多个候选 token,只对看起来靠谱的部分做选择性验证。
开源生态:DeepSpec
DeepSeek 发了论文(arXiv:2606.19348),也开源了配套的训练评估代码库 DeepSpec(MIT 协议)。
DeepSpec 支持三种草稿算法:
- DSpark — 这次新发布的
- DFlash — 已有的块扩散式草稿方案
- Eagle3 — 第三方方案
代码库覆盖了从数据准备到训练到评估的完整流程,配置文件适配了 Qwen3-4B 和 Gemma4-12B 等目标模型。DeepSeek 说在 Qwen 和 Gemma 上也测试过,这套优化方法不限于 V4 系列。
V4-Pro-DSpark 的权重已在 Hugging Face 上线,推理示例代码也公开了。
怎么部署
Hugging Face 上提供了四种集成方式,主流方案是 vLLM 和 SGLang:
# vLLM
vllm serve "deepseek-ai/DeepSeek-V4-Pro-DSpark"
# SGLang
python3 -m sglang.launch_server \
--model-path "deepseek-ai/DeepSeek-V4-Pro-DSpark" \
--host 0.0.0.0 --port 30000
需要注意一点:V4 的 DSpark 权重没有附带 Jinja 聊天模板,处理消息格式需要用 DeepSeek 的 encoding_dsv4 Python 工具包。直接调 apply_chat_template() 可能跑偏。
局限性
说点实在的:
- 吞吐量数据看负载:51%-400% 这个区间跨度很大,实际效果跟你的 prompt 分布、硬件配置、并发量都有关系
- 不是质量升级:草稿被拒绝的时候要回退,最差情况可能比基线解码还慢
- 硬件门槛不低:V4-Pro 是 1.6T/49B 激活的 MoE 模型,加 1M 上下文,再加一层草稿模块,显存占用不小
- 训练成本高:DeepSpec 的数据准备阶段,光 Qwen3-4B 的目标缓存就需要约 38TB 存储,不是个人玩家能跑的规模
- 推理引擎需要适配:最新的草稿模块发布后需要时间被 vLLM/SGLang 完全支持,部署前要确认版本兼容性
谁该关心
如果你自己部署了 V4-Pro 或 V4-Flash,按 GPU 小时付费,DSpark 能让同样的硬件服务更多请求。跑批量评估、生成合成数据、做高并发对话的场景收益最明显。
如果只用 DeepSeek 官方的托管 API,等他们自己上线就好——API 模型名没变,后端升级不影响调用。
相关链接
- DeepSpec 代码库:https://github.com/deepseek-ai/DeepSpec
- 论文(arXiv:2606.19348):https://arxiv.org/abs/2606.19348
- Hugging Face 权重:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark
- DeepSeek V4 合集:https://huggingface.co/collections/deepseek-ai/deepseek-v4




