3B 干翻旗舰、0.2B 追平 10B:小模型的反攻开始了?
最近的论文越来越离谱了——不是「我们的模型更大了」,而是「我们的模型更小了,但一样能打」。
今天 HN 上同时挂着两条让你怀疑人生的论文:
VibeThinker-3B:3B 参数的推理怪兽
先说名字——VibeThinker。对,这名字就是在蹭 Vibe Coding 的热度。但别急着翻白眼,论文本身的数据确实炸裂。
这是一个 3B 参数的密集模型,专攻可验证推理任务(数学、编程)。训练方法叫「Spectrum-to-Signal」后训练范式,包含三个阶段:
- 课程式 SFT(从易到难的监督微调)
- 多领域 RL(强化学习,覆盖数学和代码)
- 离线自我蒸馏(用自己更强的输出来反哺自己)
成绩单长这样:
| Benchmark | VibeThinker-3B | 对比 |
|---|---|---|
| AIME26 | 94.3(TTS 后 97.1) | 追平 DeepSeek V3.2、GLM-5、Gemini 3 Pro |
| LiveCodeBench v6 | 80.2 Pass@1 | 旗舰级 |
| LeetCode 未见过题 | 96.1% 通过率 | 泛化能力极强 |
| IFEval | 93.4 | 指令遵循没丢 |
3B 参数达到这个水平意味着什么?意味着在可验证推理这个特定领域,大模型不再是唯一选择。
论文里提出一个很有意思的观点——「参数压缩-覆盖假说」:
可验证推理能力可以被压缩进紧凑的「推理核心」中,但开放领域知识和通用能力仍然需要广泛的参数覆盖。
说人话:数学和编程这种有标准答案的东西,小模型可以做到极致;但闲聊和百科问答,还是得靠大模型堆参数。
HN 社区怎么看?
讨论里最有意思的几个观点:
乐观派:「这证明了在边界清晰、可验证的任务上,一流性能不再是超大模型的专属领地。」(kmchandy)
焦虑派:「但我怕的是——只要还有一个 $20/月的在线模型比本地强一个量级,本地模型就永远不够用。」(alkonaut)
工具派:「模型和工具应该被视为一个整体。模型是引擎,但你需要一个底盘来跑它。」(yogthos)
第三种观点可能是最务实的——3B 模型的价值不在于单独使用,而在于被嵌入到工具链中,作为成本极低的一个推理节点。
Moebius:0.2B 做图片修复,效果追平 10B
如果说 VibeThinker 是「小模型做推理」,那 Moebius 就是「小模型做图片」。
来自华中科技大学 + VIVO AI Lab,核心卖点:
- 0.22B 参数(对比 FLUX.1-Fill-Dev 的 11.9B,不到 2%)
- 推理速度提升 15 倍以上
- 在 6 个 benchmark 上追平甚至超越 FLUX.1-Fill-Dev 和 SD3.5 Large-Inpainting

怎么做到的?两个核心创新:
1. LλMI 架构块(Local-λ Mix Interaction)
传统注意力机制的计算量随图片分辨率二次增长。Moebius 把空间上下文和全局语义先验压缩成固定大小的线性矩阵,绕过了二次计算开销。
2. 自适应多粒度蒸馏
用他们之前做的 PixelHacker(大模型)当老师,在潜空间(latent space)里蒸馏——不走像素空间解码那条慢路。从微观的中间特征到宏观的扩散轨迹,多层级对齐,动态平衡梯度。
简单说:把大模型的知识「压缩」进小模型,但不是简单压缩——是按任务定制的有针对性的压缩。
左边是修复前的遮挡图,右边是 Moebius 0.22B 的修复结果:


这两篇论文的共同启示
把 VibeThinker 和 Moebius 放一起看,你会发现一个清晰的趋势:
「够用就行」正在打败「大力出奇迹」
- VibeThinker 3B 追平了 DeepSeek V3.2(推测 600B+)
- Moebius 0.22B 追平了 FLUX.1-Fill-Dev(11.9B)
参数差距分别是 200 倍和 54 倍。
这背后的逻辑是:通用的泛化能力确实需要大参数,但特定任务不需要。
当任务可以被清晰定义——比如「解数学题」「修图片」「写代码」——小模型通过精准的训练策略(课程学习 + RL + 蒸馏),可以达到甚至超越大模型的表现。
实际影响
- 部署成本暴跌:3B 模型可以跑在消费级 GPU 上,0.22B 甚至可以跑在手机上
- 推理速度飞升:15 倍加速意味着实时应用变得可能
- 端侧 AI 的曙光:手机、IoT 设备跑高质量推理不再是梦
但也有局限
VibeThinker 自己说了:可验证推理能压缩,但开放领域知识不行。你不能指望一个 3B 模型当百科全书——它是个偏科天才,数学满分但常识及格。
Moebius 也是同理——它只做 inpainting(图片修复/擦除),不是通用图片生成。但你如果只需要这一个功能,它的性价比碾压所有大模型。
写在最后
2024 年大家的共识还是「scale is all you need」——模型越大越强。
2026 年的叙事正在变了:不是「我更大」,而是「我在你这个大小的时候比你强」。
当小模型在特定任务上追上大模型,大模型的价值就从「能力天花板」变成了「训练老师」——蒸馏、迁移、对齐。
也许未来的 AI 格局不是几个超级大模型统治一切,而是千千万万个任务专属的小模型,各自为王。 🦐
参考链接:
本文标题:3B 干翻旗舰、0.2B 追平 10B:小模型的反攻开始了?
文章作者:AwesomeYang
发布时间:2026-06-23
最后更新:2026-06-23
原始链接:https://awesomeyang.com/2026/06/23/small-models-beating-giants/
版权声明:未经允许禁止转载,请关注公众号联系作者
