微博 VibeThinker-3B 发布：3B 参数模型在推理任务上超越 Claude Opus 4.5

微博AI交出了一份让人意外的成绩单

一个30亿参数的模型，在数学推理和代码生成上跑赢了Claude Opus 4.5、DeepSeek V3.2和Gemini 3 Pro。这不是PPT上的数字游戏——论文在arXiv公开，模型权重已经放到了Hugging Face，Hacker News上375个赞和198条评论说明社区确实在认真讨论这件事。

这个模型叫VibeThinker-3B，来自微博AI团队（Weibo AI），论文编号arXiv:2606.16140。

具体跑了多少分

基准测试	VibeThinker-3B	说明
AIME26	94.3（开启claim-level测试时缩放后达97.1）	美国数学邀请赛2026真题
LiveCodeBench v6	80.2 Pass@1	实时编程基准
LeetCode（未见竞赛）	96.1% 通过率	模型训练截止后的新题
IFEval	93.4	指令遵循能力

94.3分的AIME26成绩是什么概念？排在前面的模型参数量普遍在数百亿到万亿级别。一个3B模型能拿到这个分数，确实不太寻常。

怎么做到的：Spectrum-to-Signal 后训练范式

VibeThinker-3B的技术路线叫「Spectrum-to-Signal」（频谱到信号），核心思想是把后训练拆成三步：

课程式监督微调（Curriculum SFT）——不是把所有数据一股脑丢给模型，而是按难度阶梯式训练
多域强化学习——在数学、代码等多个领域同时做RL优化
离线自蒸馏——让模型自己从自身输出中提炼更精炼的推理路径

团队还提出了一个理论假设：参数压缩-覆盖假说。简单说，可验证的推理能力（比如做数学题、写代码）可以被压缩进很小的「推理核心」里，而开放域知识和通用能力才需要大参数量来覆盖。3B模型不是大模型的廉价替代品，而是一条互补的技术路线。

社区怎么看

HN上198条评论反映了真实的反应——既兴奋，也有质疑。

有人把这个模型比作「一个什么都不知道但很会学习的聪明人」。这个比喻挺准确：VibeThinker-3B不擅长调API、不擅长写长篇知识性内容，但如果你给它一道数学题或一个编程问题，它确实能给出不错的推理过程。

RTX 3090用户实测可以在本地跑起来（24GB显存，通过vLLM部署），有人已经拿它做代码安全审查的初步测试。不过也有人指出它在安全漏洞发现上表现很差——在一个基于Mythos发现的漏洞构建的测试集上，VibeThinker-3B一个都没找到。

一个值得注意的限制：这个模型没有经过工具调用或Agent数据训练。官方Hugging Face模型卡明确写了不建议用于函数调用、API编排或自主编程Agent。它是纯粹的推理模型。

还有人提到Qwen2.5作为基座模型「按LLM标准来说已经算老了」，暗示换更新的基座可能还有提升空间。

和同类模型的对比

模型	参数量	定位
VibeThinker-3B	3B	纯推理（数学+代码）
DeepSeek V3.2	671B（MoE）	通用
GLM-5	数百亿级	通用（中文优化）
Gemini 3 Pro	未公开	通用多模态
Claude Opus 4.5	未公开	通用（Anthropic旗舰）

参数量差了两到三个数量级，但在特定基准上打平甚至超越——这本身就是一个有意义的信号。

局限性

不支持工具调用和Agent——不能当通用助手用
Python为主——社区测试显示在Python编码上表现最好，其他语言可能打折扣
基准vs真实世界的差距——VentureBeat的报道标题就是「AI圈又在争论benchmark了」，部分人对基准分数的实际意义持保留态度
基座模型偏旧——Qwen2.5已不是最新的开源基座

怎么用

模型权重在Hugging Face上：WeiboAI/VibeThinker-3B。需要通过vLLM或类似推理框架部署，推荐至少24GB显存。适合的场景是数学推理、代码生成这类可验证任务，不适合当通用聊天机器人。

GitHub仓库：https://github.com/WeiboAI/VibeThinker arXiv论文：https://arxiv.org/abs/2606.16140

写在最后

VibeThinker-3B最值得关注的不是它跑了多少分，而是它背后的思路：推理能力和知识量可以解耦。如果这个方向成立，未来可能出现更多「小而精」的推理模型，配合工具调用弥补知识短板——3B参数做推理，查资料交给搜索引擎或RAG。这种组合拳可能比单纯堆参数更高效。

微博AI交出了一份让人意外的成绩单

这个模型叫VibeThinker-3B，来自微博AI团队（Weibo AI），论文编号arXiv:2606.16140。

具体跑了多少分

基准测试	VibeThinker-3B	说明
AIME26	94.3（开启claim-level测试时缩放后达97.1）	美国数学邀请赛2026真题
LiveCodeBench v6	80.2 Pass@1	实时编程基准
LeetCode（未见竞赛）	96.1% 通过率	模型训练截止后的新题
IFEval	93.4	指令遵循能力

94.3分的AIME26成绩是什么概念？排在前面的模型参数量普遍在数百亿到万亿级别。一个3B模型能拿到这个分数，确实不太寻常。

怎么做到的：Spectrum-to-Signal 后训练范式

VibeThinker-3B的技术路线叫「Spectrum-to-Signal」（频谱到信号），核心思想是把后训练拆成三步：

课程式监督微调（Curriculum SFT）——不是把所有数据一股脑丢给模型，而是按难度阶梯式训练
多域强化学习——在数学、代码等多个领域同时做RL优化
离线自蒸馏——让模型自己从自身输出中提炼更精炼的推理路径

社区怎么看

HN上198条评论反映了真实的反应——既兴奋，也有质疑。

还有人提到Qwen2.5作为基座模型「按LLM标准来说已经算老了」，暗示换更新的基座可能还有提升空间。

和同类模型的对比

模型	参数量	定位
VibeThinker-3B	3B	纯推理（数学+代码）
DeepSeek V3.2	671B（MoE）	通用
GLM-5	数百亿级	通用（中文优化）
Gemini 3 Pro	未公开	通用多模态
Claude Opus 4.5	未公开	通用（Anthropic旗舰）

参数量差了两到三个数量级，但在特定基准上打平甚至超越——这本身就是一个有意义的信号。

局限性

不支持工具调用和Agent——不能当通用助手用
Python为主——社区测试显示在Python编码上表现最好，其他语言可能打折扣
基准vs真实世界的差距——VentureBeat的报道标题就是「AI圈又在争论benchmark了」，部分人对基准分数的实际意义持保留态度
基座模型偏旧——Qwen2.5已不是最新的开源基座

怎么用

GitHub仓库：https://github.com/WeiboAI/VibeThinker arXiv论文：https://arxiv.org/abs/2606.16140

微博 VibeThinker-3B 发布：3B 参数模型在推理任务上超越 Claude Opus 4.5 | 2026-06-24

推荐阅读

Nub、LookAway、Apposters 三款实用工具推荐 | 2026-06-25

Gemini 3.5 Flash 内置 Computer Use：谷歌把屏幕操控能力塞进了主力模型 | 2026-06-25

字节跳动发布 Seedance 2.5：单段视频 30 秒，不用拼接 | 2026-06-23

三款值得关注的开源工具：百度 Unlimited OCR、TikZ Editor、FUTO Swipe | 2026-06-24

微博 VibeThinker-3B 发布：3B 参数模型在推理任务上超越 Claude Opus 4.5 | 2026-06-24

微博AI交出了一份让人意外的成绩单

具体跑了多少分

怎么做到的：Spectrum-to-Signal 后训练范式

社区怎么看

和同类模型的对比

局限性

怎么用

写在最后

推荐阅读

Nub、LookAway、Apposters 三款实用工具推荐 | 2026-06-25

Gemini 3.5 Flash 内置 Computer Use：谷歌把屏幕操控能力塞进了主力模型 | 2026-06-25

字节跳动发布 Seedance 2.5：单段视频 30 秒，不用拼接 | 2026-06-23

三款值得关注的开源工具：百度 Unlimited OCR、TikZ Editor、FUTO Swipe | 2026-06-24

微博AI交出了一份让人意外的成绩单

具体跑了多少分

怎么做到的：Spectrum-to-Signal 后训练范式

社区怎么看

和同类模型的对比

局限性

怎么用

写在最后