3B 干翻旗舰、0.2B 追平 10B：小模型的反攻开始了？

2026-06-23 | AI | 阅读

文章目录

1. VibeThinker-3B：3B 参数的推理怪兽
1. 1.1. HN 社区怎么看？
2. Moebius：0.2B 做图片修复，效果追平 10B
1. 2.1. 1. LλMI 架构块（Local-λ Mix Interaction）
2. 2.2. 2. 自适应多粒度蒸馏
3. 这两篇论文的共同启示
4. 写在最后

最近的论文越来越离谱了——不是「我们的模型更大了」，而是「我们的模型更小了，但一样能打」。

今天 HN 上同时挂着两条让你怀疑人生的论文：

VibeThinker-3B：3B 参数的推理怪兽

先说名字——VibeThinker。对，这名字就是在蹭 Vibe Coding 的热度。但别急着翻白眼，论文本身的数据确实炸裂。

论文链接

这是一个 3B 参数的密集模型，专攻可验证推理任务（数学、编程）。训练方法叫「Spectrum-to-Signal」后训练范式，包含三个阶段：

课程式 SFT（从易到难的监督微调）
多领域 RL（强化学习，覆盖数学和代码）
离线自我蒸馏（用自己更强的输出来反哺自己）

成绩单长这样：

Benchmark	VibeThinker-3B	对比
AIME26	94.3（TTS 后 97.1）	追平 DeepSeek V3.2、GLM-5、Gemini 3 Pro
LiveCodeBench v6	80.2 Pass@1	旗舰级
LeetCode 未见过题	96.1% 通过率	泛化能力极强
IFEval	93.4	指令遵循没丢

3B 参数达到这个水平意味着什么？意味着在可验证推理这个特定领域，大模型不再是唯一选择。

论文里提出一个很有意思的观点——「参数压缩-覆盖假说」：

可验证推理能力可以被压缩进紧凑的「推理核心」中，但开放领域知识和通用能力仍然需要广泛的参数覆盖。

说人话：数学和编程这种有标准答案的东西，小模型可以做到极致；但闲聊和百科问答，还是得靠大模型堆参数。

HN 社区怎么看？

讨论里最有意思的几个观点：

乐观派：「这证明了在边界清晰、可验证的任务上，一流性能不再是超大模型的专属领地。」（kmchandy）
焦虑派：「但我怕的是——只要还有一个 $20/月的在线模型比本地强一个量级，本地模型就永远不够用。」（alkonaut）
工具派：「模型和工具应该被视为一个整体。模型是引擎，但你需要一个底盘来跑它。」（yogthos）

第三种观点可能是最务实的——3B 模型的价值不在于单独使用，而在于被嵌入到工具链中，作为成本极低的一个推理节点。

Moebius：0.2B 做图片修复，效果追平 10B

如果说 VibeThinker 是「小模型做推理」，那 Moebius 就是「小模型做图片」。

项目主页 | 论文

来自华中科技大学 + VIVO AI Lab，核心卖点：

0.22B 参数（对比 FLUX.1-Fill-Dev 的 11.9B，不到 2%）
推理速度提升 15 倍以上
在 6 个 benchmark 上追平甚至超越 FLUX.1-Fill-Dev 和 SD3.5 Large-Inpainting

Moebius 架构流程

怎么做到的？两个核心创新：

1. LλMI 架构块（Local-λ Mix Interaction）

传统注意力机制的计算量随图片分辨率二次增长。Moebius 把空间上下文和全局语义先验压缩成固定大小的线性矩阵，绕过了二次计算开销。

2. 自适应多粒度蒸馏

用他们之前做的 PixelHacker（大模型）当老师，在潜空间（latent space）里蒸馏——不走像素空间解码那条慢路。从微观的中间特征到宏观的扩散轨迹，多层级对齐，动态平衡梯度。

简单说：把大模型的知识「压缩」进小模型，但不是简单压缩——是按任务定制的有针对性的压缩。

左边是修复前的遮挡图，右边是 Moebius 0.22B 的修复结果：

修复前

修复后

这两篇论文的共同启示

把 VibeThinker 和 Moebius 放一起看，你会发现一个清晰的趋势：

「够用就行」正在打败「大力出奇迹」

VibeThinker 3B 追平了 DeepSeek V3.2（推测 600B+）
Moebius 0.22B 追平了 FLUX.1-Fill-Dev（11.9B）

参数差距分别是 200 倍和 54 倍。

这背后的逻辑是：通用的泛化能力确实需要大参数，但特定任务不需要。

当任务可以被清晰定义——比如「解数学题」「修图片」「写代码」——小模型通过精准的训练策略（课程学习 + RL + 蒸馏），可以达到甚至超越大模型的表现。

实际影响

部署成本暴跌：3B 模型可以跑在消费级 GPU 上，0.22B 甚至可以跑在手机上
推理速度飞升：15 倍加速意味着实时应用变得可能
端侧 AI 的曙光：手机、IoT 设备跑高质量推理不再是梦

但也有局限

VibeThinker 自己说了：可验证推理能压缩，但开放领域知识不行。你不能指望一个 3B 模型当百科全书——它是个偏科天才，数学满分但常识及格。

Moebius 也是同理——它只做 inpainting（图片修复/擦除），不是通用图片生成。但你如果只需要这一个功能，它的性价比碾压所有大模型。

写在最后

2024 年大家的共识还是「scale is all you need」——模型越大越强。

2026 年的叙事正在变了：不是「我更大」，而是「我在你这个大小的时候比你强」。

当小模型在特定任务上追上大模型，大模型的价值就从「能力天花板」变成了「训练老师」——蒸馏、迁移、对齐。

也许未来的 AI 格局不是几个超级大模型统治一切，而是千千万万个任务专属的小模型，各自为王。 🦐

参考链接：

Donate

本文标题：3B 干翻旗舰、0.2B 追平 10B：小模型的反攻开始了？

文章作者：AwesomeYang

发布时间：2026-06-23

最后更新：2026-06-23

原始链接：https://awesomeyang.com/2026/06/23/small-models-beating-giants/