微博AI交出了一份让人意外的成绩单

一个30亿参数的模型,在数学推理和代码生成上跑赢了Claude Opus 4.5、DeepSeek V3.2和Gemini 3 Pro。这不是PPT上的数字游戏——论文在arXiv公开,模型权重已经放到了Hugging Face,Hacker News上375个赞和198条评论说明社区确实在认真讨论这件事。

这个模型叫VibeThinker-3B,来自微博AI团队(Weibo AI),论文编号arXiv:2606.16140。

具体跑了多少分

基准测试VibeThinker-3B说明
AIME2694.3(开启claim-level测试时缩放后达97.1)美国数学邀请赛2026真题
LiveCodeBench v680.2 Pass@1实时编程基准
LeetCode(未见竞赛)96.1% 通过率模型训练截止后的新题
IFEval93.4指令遵循能力

94.3分的AIME26成绩是什么概念?排在前面的模型参数量普遍在数百亿到万亿级别。一个3B模型能拿到这个分数,确实不太寻常。

怎么做到的:Spectrum-to-Signal 后训练范式

VibeThinker-3B的技术路线叫「Spectrum-to-Signal」(频谱到信号),核心思想是把后训练拆成三步:

  1. 课程式监督微调(Curriculum SFT)——不是把所有数据一股脑丢给模型,而是按难度阶梯式训练
  2. 多域强化学习——在数学、代码等多个领域同时做RL优化
  3. 离线自蒸馏——让模型自己从自身输出中提炼更精炼的推理路径

团队还提出了一个理论假设:参数压缩-覆盖假说。简单说,可验证的推理能力(比如做数学题、写代码)可以被压缩进很小的「推理核心」里,而开放域知识和通用能力才需要大参数量来覆盖。3B模型不是大模型的廉价替代品,而是一条互补的技术路线。

社区怎么看

HN上198条评论反映了真实的反应——既兴奋,也有质疑。

有人把这个模型比作「一个什么都不知道但很会学习的聪明人」。这个比喻挺准确:VibeThinker-3B不擅长调API、不擅长写长篇知识性内容,但如果你给它一道数学题或一个编程问题,它确实能给出不错的推理过程。

RTX 3090用户实测可以在本地跑起来(24GB显存,通过vLLM部署),有人已经拿它做代码安全审查的初步测试。不过也有人指出它在安全漏洞发现上表现很差——在一个基于Mythos发现的漏洞构建的测试集上,VibeThinker-3B一个都没找到。

一个值得注意的限制:这个模型没有经过工具调用或Agent数据训练。官方Hugging Face模型卡明确写了不建议用于函数调用、API编排或自主编程Agent。它是纯粹的推理模型。

还有人提到Qwen2.5作为基座模型「按LLM标准来说已经算老了」,暗示换更新的基座可能还有提升空间。

和同类模型的对比

模型参数量定位
VibeThinker-3B3B纯推理(数学+代码)
DeepSeek V3.2671B(MoE)通用
GLM-5数百亿级通用(中文优化)
Gemini 3 Pro未公开通用多模态
Claude Opus 4.5未公开通用(Anthropic旗舰)

参数量差了两到三个数量级,但在特定基准上打平甚至超越——这本身就是一个有意义的信号。

局限性

怎么用

模型权重在Hugging Face上:WeiboAI/VibeThinker-3B。需要通过vLLM或类似推理框架部署,推荐至少24GB显存。适合的场景是数学推理、代码生成这类可验证任务,不适合当通用聊天机器人。

GitHub仓库:https://github.com/WeiboAI/VibeThinker arXiv论文:https://arxiv.org/abs/2606.16140

写在最后

VibeThinker-3B最值得关注的不是它跑了多少分,而是它背后的思路:推理能力和知识量可以解耦。如果这个方向成立,未来可能出现更多「小而精」的推理模型,配合工具调用弥补知识短板——3B参数做推理,查资料交给搜索引擎或RAG。这种组合拳可能比单纯堆参数更高效。