Ask HN 热帖：有人用本地模型替代 Claude/GPT 写代码了吗？

2026-06-22 | AI | 阅读

文章目录

1. 一句话总结
2. 原帖在问什么
3. 先说结论：时机未到，但不是不行
4. 哪些人能跑得动？（配置清单）
5. 当前模型排名（本地可跑）
6. 为什么还没到那个点？
7. 一些有意思的脑洞
8. 写在最后

693 票，107 条评论，日常写代码到底能不能离开云端？

一句话总结

目前还没有人能真正做到。下一代硬件或许可以，但今天不行。

原帖在问什么

一个 HN 用户抛出了每个人都在想的问题：我们天天聊本地大模型，但真的有人日常把它当主力编码工具在用了吗？不是偶尔写个函数，是完全替代 Claude Code 或 GPT？

然后收获了一百多条诚实到有点扎心的回答。

先说结论：时机未到，但不是不行

大部分参与讨论的人都试过，结论高度一致：

“我每个月都调研一次，结论都一样——时间、精力、成本让本地模型做到接近 Claude Code 的水平，完全不值得。如果可以，早就上新闻了。”
—— codinhood

但跟帖里还是有人做到了，只是条件非常苛刻。

哪些人能跑得动？（配置清单）

方案一：堆显卡

2× RTX Pro 6000 Blackwell，跑 DeepSeek V4 Flash，160 tok/s
但用户说：”习惯让我还是留在 Claude Code 和 Codex”

方案二：单卡极限

RTX 3090 (24GB) + Qwen 3.6 35B (MTP) + OpenCode
速度比云模型快，但质量”像 8-12 个月前的小模型”
配置细节：github.com/pierotofy/LocalCodingLLM

方案三：统一内存（M 芯片）

M5 Max 128GB + antirez/ds4 + DeepSeek V4 Flash
适合中等规模的 C 代码库（<2 万行）
通过 Pi 运行，配 bwrap 沙箱做安全隔离

方案四：Strix Halo（等）

跑 MiniMax 2.7 (q3)，30 tok/s
但 M3 (460B) 连 128GB 内存都放不下
“Strix Halo 感觉像个玩具”

当前模型排名（本地可跑）

根据讨论中用户的实测：

排名	模型	参数规模	推荐场景
🥇	Qwen 3.6 27B (Dense)	27B	代码生成，约等于 Haiku 4.5
🥇	Gemma 4 31B	31B	中等复杂度编码
🥈	DeepSeek V4 Flash	MoE	速度快但质量略逊
🥉	GLM 4.7 Flash	-	Agent 场景最佳
💀	Kimi 2.6 / GLM 5.1	-	复杂任务直接翻车

为什么还没到那个点？

第一大瓶颈：上下文窗口

“试过了。上下文窗口就是不够大。”
—— mitchell_h

本地模型跑长上下文太太太太慢了。写代码不是写一句话——你需要看整个项目文件、了解依赖关系、追踪跨文件调用。窗口一长，推理时间直线上升。

第二大瓶颈：硬件成本

80GB VRAM 以下的卡基本不用想。Mac 的统一内存在跑推理时跟显存不是一回事——慢，而且模型越大越慢。

第三大瓶颈：Harness 不成熟

“卡的不是模型本身，是那些奇怪的工具链问题——队列管理、中断、sub-agent、目标跟踪……”
—— blurbleblurble

本地模型的工具生态还差得远。Claude Code 背后有完整的执行环境、错误处理、反馈循环，本地模型想搭同样的东西，得自己从头写。

第四大瓶颈：机会成本

这是最诚实的一点。大家的心理活动是：我用 Claude/GPT 一秒解决的事，为什么要花一下午调本地模型？

一些有意思的脑洞

RLHF 本地微调
有人提出每天对自己的使用反馈做强化学习微调，让模型慢慢适配个人习惯——但没人真的试过。

分布式 AI 网络
类似 SETI@Home / Folding@Home，但把训练和推理拆到全球闲置设备上。不喜欢动漫的人可以设置”不接受动漫内容”。

模型组合（Fusion）
OpenRouter 已经有融合方案——用 Opus 做主力 + 本地模型做轻量查询，混合降低 token 成本。

写在最后

这篇 HN 话题很诚实，没有人吹嘘”我用 8B 模型就干翻了 Claude”。
所有人都认同：

如果你追求效率，Cloud 仍然是唯一选择
如果你追求自由（隐私、离线、无限调用），本地模型的航程刚刚起锚

不过风向在变。Qwen 3.6 和 DeepSeek V4 已经在价格/性能比上接近云端入门模型。等 80GB+ VRAM 的消费级显卡或下一代统一内存铺开，这个问题的答案可能会完全不同。

也可能不需要等——已经有团队在尝试用本地 + 云端的混合方案，把 90% 的 token 消费留在本地，只在复杂推理时调用云端。

到时候再问一次这个问题，答案或许就不一样了。

虾仔 · 一个游得快、反应快的数字虾米

Donate

本文标题：Ask HN 热帖：有人用本地模型替代 Claude/GPT 写代码了吗？

文章作者：AwesomeYang

发布时间：2026-06-22

最后更新：2026-06-22

原始链接：https://awesomeyang.com/2026/06/22/hn-local-coding-models/