微博AI交出了一份让人意外的成绩单
一个30亿参数的模型,在数学推理和代码生成上跑赢了Claude Opus 4.5、DeepSeek V3.2和Gemini 3 Pro。这不是PPT上的数字游戏——论文在arXiv公开,模型权重已经放到了Hugging Face,Hacker News上375个赞和198条评论说明社区确实在认真讨论这件事。
这个模型叫VibeThinker-3B,来自微博AI团队(Weibo AI),论文编号arXiv:2606.16140。
具体跑了多少分
| 基准测试 | VibeThinker-3B | 说明 |
|---|---|---|
| AIME26 | 94.3(开启claim-level测试时缩放后达97.1) | 美国数学邀请赛2026真题 |
| LiveCodeBench v6 | 80.2 Pass@1 | 实时编程基准 |
| LeetCode(未见竞赛) | 96.1% 通过率 | 模型训练截止后的新题 |
| IFEval | 93.4 | 指令遵循能力 |
94.3分的AIME26成绩是什么概念?排在前面的模型参数量普遍在数百亿到万亿级别。一个3B模型能拿到这个分数,确实不太寻常。
怎么做到的:Spectrum-to-Signal 后训练范式
VibeThinker-3B的技术路线叫「Spectrum-to-Signal」(频谱到信号),核心思想是把后训练拆成三步:
- 课程式监督微调(Curriculum SFT)——不是把所有数据一股脑丢给模型,而是按难度阶梯式训练
- 多域强化学习——在数学、代码等多个领域同时做RL优化
- 离线自蒸馏——让模型自己从自身输出中提炼更精炼的推理路径
团队还提出了一个理论假设:参数压缩-覆盖假说。简单说,可验证的推理能力(比如做数学题、写代码)可以被压缩进很小的「推理核心」里,而开放域知识和通用能力才需要大参数量来覆盖。3B模型不是大模型的廉价替代品,而是一条互补的技术路线。
社区怎么看
HN上198条评论反映了真实的反应——既兴奋,也有质疑。
有人把这个模型比作「一个什么都不知道但很会学习的聪明人」。这个比喻挺准确:VibeThinker-3B不擅长调API、不擅长写长篇知识性内容,但如果你给它一道数学题或一个编程问题,它确实能给出不错的推理过程。
RTX 3090用户实测可以在本地跑起来(24GB显存,通过vLLM部署),有人已经拿它做代码安全审查的初步测试。不过也有人指出它在安全漏洞发现上表现很差——在一个基于Mythos发现的漏洞构建的测试集上,VibeThinker-3B一个都没找到。
一个值得注意的限制:这个模型没有经过工具调用或Agent数据训练。官方Hugging Face模型卡明确写了不建议用于函数调用、API编排或自主编程Agent。它是纯粹的推理模型。
还有人提到Qwen2.5作为基座模型「按LLM标准来说已经算老了」,暗示换更新的基座可能还有提升空间。
和同类模型的对比
| 模型 | 参数量 | 定位 |
|---|---|---|
| VibeThinker-3B | 3B | 纯推理(数学+代码) |
| DeepSeek V3.2 | 671B(MoE) | 通用 |
| GLM-5 | 数百亿级 | 通用(中文优化) |
| Gemini 3 Pro | 未公开 | 通用多模态 |
| Claude Opus 4.5 | 未公开 | 通用(Anthropic旗舰) |
参数量差了两到三个数量级,但在特定基准上打平甚至超越——这本身就是一个有意义的信号。
局限性
- 不支持工具调用和Agent——不能当通用助手用
- Python为主——社区测试显示在Python编码上表现最好,其他语言可能打折扣
- 基准vs真实世界的差距——VentureBeat的报道标题就是「AI圈又在争论benchmark了」,部分人对基准分数的实际意义持保留态度
- 基座模型偏旧——Qwen2.5已不是最新的开源基座
怎么用
模型权重在Hugging Face上:WeiboAI/VibeThinker-3B。需要通过vLLM或类似推理框架部署,推荐至少24GB显存。适合的场景是数学推理、代码生成这类可验证任务,不适合当通用聊天机器人。
GitHub仓库:https://github.com/WeiboAI/VibeThinker arXiv论文:https://arxiv.org/abs/2606.16140
写在最后
VibeThinker-3B最值得关注的不是它跑了多少分,而是它背后的思路:推理能力和知识量可以解耦。如果这个方向成立,未来可能出现更多「小而精」的推理模型,配合工具调用弥补知识短板——3B参数做推理,查资料交给搜索引擎或RAG。这种组合拳可能比单纯堆参数更高效。




