我花了一个晚上,翻了 Reddit 上 30 多个帖子,覆盖 r/generativeAI、r/runwayml、r/KlingAI、r/microsaas、r/comfyui 等十几个社区。

目的只有一个:搞清楚一件事——用户到底在用什么 AI 视频工具,又在骂什么。

结果比我想象的精彩得多。

角色一致性:AI视频赛道的「致命缺陷」

如果你在 Reddit 搜 “AI video”,每 10 个帖子里有 8 个会提到同一个问题:角色一致性

一位 r/generativeAI 的用户这样描述他的困境:

“My biggest problem is that the character looks slightly or noticeably different in every clip. Different facial structure, lighting, sometimes clothing…”

(我最大的问题是,角色在每个镜头里看起来都略有不同。脸型变了、光影变了、有时候衣服都变了。)

这不是个别用户的抱怨。在 r/AI_UGC_Marketing 社区,一位做了大量测试的创作者直接下了结论:

“This is still the most broken part of AI video production in 2025… Kling has been the closest in my testing. Sora makes it basically impossible.”

(这仍然是 AI 视频制作中最崩坏的部分。Kling 是我测试中最接近的,Sora 基本不可能做到。)

r/midjourney 社区里更是一针见血:

“Without consistency there is no point and cref is not good enough.”

(没有一致性,其他一切都毫无意义,而 cref 还远远不够好。)

为什么这个问题这么致命?

想象你在做一条短视频广告,主角需要在 5 个场景中出现——街头、咖啡厅、办公室、公园、夜晚的天台。如果每个镜头里的主角长得不一样,观众的第一反应不是”画质好差”,而是”这是同一个人吗?”——叙事直接崩塌。

一位 SaaS 创业者甚至花了 6 个月时间构建平台来解决这个问题,他在 r/SaaS 写道:

“If you’re telling a story across 15-20 scenes, your main character can’t look different in every shot.”

(如果你要讲一个跨 15-20 个场景的故事,主角不能在每个镜头里都长得不一样。)

现有方案各有各的残缺:

  • Runway 的 reference image 功能效果不稳定
  • Kling Elements 是目前最接近的,但用户反馈”not perfect”
  • ComfyUI + LoRA 技术上可行,但工作流复杂到劝退普通用户
  • Midjourney cref 对角色一致性的控制力还不够精准

有技术高手在 Reddit 分享了自己的”解耦工作流”——先分离角色和背景、单独生成动作、再后期合成。这篇帖子获得了大量共鸣,但恰恰说明了一个尴尬的现实:即使是最硬核的用户,也需要花大量时间手工拆解。

Runway用户在逃亡:$95/月只能生成19个视频

如果说角色一致性是技术痛点,那 Runway 的定价就是商业痛点。

一位 r/runwayml 用户发现,Runway 悄悄取消了”无限计划”,改成了额度制:

“With that now gone, you’ll blow through 19 video generations very quickly.”

(无限计划没了,你很快就会烧完 19 个视频的额度。)

$95/月,19 个 15 秒视频。平均每个视频成本 $5。

但问题在于——AI 视频生成的成功率远没有想象中那么高。另一位用户的说法更直接:

“RunwayML does feel like a scam. It’s rarely a hit and 90% of the time a miss… you more often than not end up with a useless 5 second video that cost you around $1.50.”

(RunwayML 感觉像骗局。90%的时候都是失败的……你经常花 $1.50 得到一个没用的 5 秒视频。)

这不是个别现象。Runway 还被曝出暗中限速、突然取消 1080p 输出、排队时间越来越长等问题。Kling AI 的情况也不乐观——r/ArtificialInteligence 上有用户抱怨 credit 限制和排队时间让人抓狂。

核心矛盾很清楚:AI 视频需要大量迭代试错(10-20 次才能出一个满意的),但工具方按”成功生成”计费,用户实际上在为 80% 的废品买单。

ComfyUI用户的绝望:5秒视频,1小时渲染

在工作流层面,用户的痛苦更加具体。

r/comfyui 里有人这样形容现有的 AI 视频工作流:

“All of them are over complicated spaghetti messes that requires so many third party custom nodes.”

(全都是过度复杂的意大利面节点汤,需要一大堆第三方自定义节点。)

即使你搞定了节点,硬件也是一座大山。r/StableDiffusion 一位用了 RTX 4090 的用户说:

即使用 4090,生成 5 秒 720p 视频也要 15 分钟。

而另一位 ComfyUI 用户更惨——5 秒视频要等 1 小时。

r/comfyui 还有用户吐槽节点的 enable/disable 按钮根本不工作,大量时间花在重新连线上。

这就是 AI 视频工具市场的真实现状:

  • ComfyUI 等开源工具:专业、灵活、免费——但复杂度极高,只有极客能用
  • Runway/Kling 等商业工具:简单——但贵、限制多、角色不一致
  • 中间缺一个:既简单又高质量,且不需要博士学位的工作流

Reddit获客课:冷邮件已死,有机互动是王道

调研过程中,我还发现了一个跟 AI 工具本身无关,但极其有意思的发现。

一位独立开发者在 r/microsaas 分享了他获得 175 个付费用户的完整数据:

获客渠道 投入 转化
冷邮件 3000 封 2 个客户
LinkedIn 500 条 0 个客户
Google Ads $1200 1 个客户
Reddit 有机互动 回帖+分享 100+ 客户(60%+)

冷邮件 3000 封换 2 个客户,LinkedIn 500 条换 0 个。而 Reddit 上的有机回复——认真回答问题、分享经验——贡献了超过 60% 的付费客户。

更有意思的是,另一位开发者发现了一个新兴渠道:

“11% of signups came from ChatGPT referrals. In January? 23%.”

(11% 的注册来自 ChatGPT 推荐。到了一月?23%。)

用户找工具的方式正在改变。 越来越多人不搜 Google 了,而是直接问 ChatGPT/Claude。如果你的产品不在 LLM 的回答里,你就不存在。

有开发者把这种现象叫做 AEO(Answer Engine Optimization),区别于传统 SEO。目前这还是一片蓝海——因为大多数公司连基本的 LLM 可见性都没做。

30个帖子告诉我们的5个真相

回到最开始的问题:AI 视频工具的用户到底在求什么?

从 30+ 个 Reddit 帖子中,我提炼出 5 个核心需求,按需求信号矩阵打分(频率×情绪×现有方案空白×付费意愿):

1. 角色一致性 — 19/20 分(顶级机会)

几乎每个 AI 视频讨论都会提到。用户用”most broken”、”fatal flaw”来形容。目前没有工具能真正解决。

2. 定价模式创新 — 17/20 分

Runway/Kling 用户正在流失。$95/月生成 19 个视频,90%是废品。用户明确表示愿意为”好结果”付费,但拒绝为”试错”买单。

3. 一键工作流 — 17/20 分

从一张图到一段好视频,中间隔了 5-10 个步骤和 3-4 个工具。用户要的是:上传图片→选风格→出片。

4. SaaS 获客新打法 — 16/20 分

Reddit 有机互动转化率是冷邮件的 50 倍。ChatGPT 推荐正在成为新的获客渠道。

5. 免费 SEO 微工具引流 — 12/20 分

有开发者做了 50+ 个免费小工具(如”XML sitemap validator”)排在 Google 前列,每个都是一个流量入口,funnel 到付费产品。

最后

AI 视频这个赛道很热,但热不代表用户满意。恰恰相反,从 Reddit 上的真实声音来看,用户对现有工具的满意度极低——角色不连贯、定价不合理、工作流太复杂。

这些痛点不是”锦上添花”能解决的,而是需要从底层重新思考产品逻辑。谁能同时做到”简单”、”高质量”、”角色一致”,谁就能吃下这个市场。

这不是我的判断,是 30 个帖子里用户的共识。


参考链接: