AI视频的成本真相:一个真实项目的完整账本
如果你看API报价,AI视频看起来很便宜。HappyHorse I2V ¥0.90/秒,GPT-Image-2 ¥0.08/次——做一个5分钟的预告片,按表面价格算,几百块就够了。
实际花了 ¥2,234.67,Agent 消耗了近 10 亿 tokens。
这篇文章公开《静默纪元·守护》预告片项目的真实成本结构。不是"理论上花多少钱",而是"实际花了的钱+花在哪+为什么比预期贵"。
总账:¥2,234.67 是怎么花掉的
| 类别 | 金额 | 占比 | 说明 |
|---|---|---|---|
| Claude Code / Opus 4.7 | ¥815.77 | 36.5% | Agent会话token费用(3个会话) |
| Codex / GPT-5.5 | ¥694.63 | 31.1% | 19个会话,实际计入(从41个全量会话中筛选) |
| Qoder 订阅 | ¥300.00 | 13.4% | 月费(本地IDE/Agent工具) |
| HappyHorse I2V 720P | ¥198.09 | 8.9% | 38次成功调用,220.1秒 |
| MiMo TTS 订阅 | ¥99.00 | 4.4% | 月费(89次TTS在订阅内) |
| MiniMax 音乐订阅 | ¥99.00 | 4.4% | 月费(3次音乐生成,未用满) |
| GPT-Image-2 生图 | ¥26.25 | 1.2% | 430次调用(331 done + 99 failed) |
| Claude Code / deepseek-v4-pro | ¥1.93 | 0.1% | 1个测试会话 |
Agent token 合计:¥1,510.40,占总成本 67.6%。消耗近 10 亿 tokens(Codex 5.73 亿 + Claude Opus 约 4.21 亿)。
三个反直觉的事实:
- 最大开销不是视频生成,是 Agent token。 Codex + Claude 合计 ¥1,510.40,占 67.6%。AI 思考和帮你做决策比 AI 生成图像贵得多。
- I2V 只花了 ¥198,但真实成本远不止。 220.1 秒成功生成背后,还有至少同等数量的失败/废弃 I2V 生成没有计入——因为它们生成出来就不合格,根本没进入"成功"记录。
- 图像生成 ¥26.25 看起来很便宜,但 430 次调用只有 39 张最终通过。 通过率 9%。意味着每张可用的 keyframe 背后约 11 次生成和淘汰。
拆开看:每项费用的隐藏成本
Agent Token(¥1,510.40)
这可能是最容易失控的成本。Agent token 合计 ¥1,510.40,占总成本 67.6%,消耗近 10 亿 tokens。
其中 Claude Code Opus 3 个会话 ¥815.77(最大一笔 ¥776.31,含 43.6M cache_write tokens)。Codex/GPT-5.5 经过审计:从 41 个全量会话中按项目相关性筛选出 19 个,合计 ¥694.63(非缓存输入 6,485 万 + 缓存读取 5.05 亿 + 输出 294 万 tokens)。
为什么贵:因为我把 Agent 当成了"讨论伙伴"而不仅仅是"执行工具"。策略讨论、设计审查、方案对比——这些对话很有价值,但它们的高 token 消耗是真实的。每次"hi"或"看下进度"都可能加载大量上下文,长期下来累积可观。
控制方法:把"策略讨论"和"执行"分离。执行用更轻的模型或更短的会话。决策沉淀到decision_log,避免每次对话重新建立上下文。这也是为什么后来我建了project_brief和decision_log——让Agent能快速加载关键信息而不是每次重建完整上下文。
I2V视频生成(¥198.09)
表面账:38次成功,220.1秒,¥0.90/秒,合计¥198.09。
隐藏成本:每个通过镜头背后有2-3个首帧候选。如果一个首帧没通过preflight gate就进了I2V,烧掉的是¥2-5/秒而不是¥0.08。保守估计,还有¥60-100的I2V费用烧在了"本可以在首帧阶段挡掉"的方向上。
真实有效成本:不是¥0.90/生成秒,而是约¥2.7-3.6/通过秒。
控制方法:建立preflight gate(首帧→I2V前4项检查)、设置候选上限、对瓶颈镜头做受控突破测试(独立预算上限,超了就止损)。
订阅费用(¥498/月)
Qoder ¥300、MiMo ¥99、MiniMax ¥99——月费型订阅的陷阱是"反正付了钱就多用"。
实际使用情况:MiMo用了89次TTS(在订阅内,划算),MiniMax只用了3次音乐生成(月费没充分使用)。Qoder作为本地IDE/Agent工具,使用频率高但难以量化每次成本。
控制方法:每项订阅每月底复盘一次"实际使用次数÷月费=单次成本",判断是否续费。Qoder ¥300/月如果频繁使用是值的,MiniMax ¥99/月只用3次就应该暂停。
图像生成(¥26.25)
430次调用,¥26.25,看起来是最便宜的一项。
但430次调用中:
- 99次技术失败(23%失败率)→ ¥7.92打了水漂
- 331次done中,估计30-40%是"生成了但视觉上不能用"→ 约¥8-10浪费
- 最终82个PU中只有39张通过keyframe
真实通过成本:不是¥0.08/次,而是¥26.25÷39=¥0.67/张可用keyframe。而且这还没算后续"这个keyframe过了但I2V阶段发现不行→重新生成keyframe"的二次成本。
成本结构揭示的真正问题
这张账单的核心信息不是"AI 视频花了 ¥2,234.67",而是:
1. Agent token 占了三分之二,消耗近 10 亿 tokens。
降低技术成本(I2V、生图、订阅)只能优化三分之一的支出。另外三分之二取决于你怎么用 Agent——是把它当成无限次对话的伙伴,还是当成有 token 预算约束的执行工具。近 10 亿 tokens 不是抽象数字,是真金白银的 ¥1,510.40。
2. 真正的成本驱动因素不是单价,而是"返工链"。
一个首帧不合格→重做首帧(¥0.08)→重做I2V(¥2-5/秒)→重新QA→重新合成。单次返工成本可能只有几块钱,但返工链条上的每一个环节都在消耗时间和注意力。
3. 最贵的错误是"晚发现失败"。
如果一个镜头在首帧阶段就能判断"这个方向不行",损失是¥0.08-0.16。如果等到I2V跑完才发现,损失是¥5-20。如果等到合成阶段才发现,损失是前面所有环节的总和。
所以成本控制的核心不是"少生成",而是"尽早识别和终止失败方向"。
如果重新做一次,成本可以降到多少
基于当前的教训,同样规模的项目(44镜/82PU/5分钟):
| 优化项 | 预估节省 |
|---|---|
| Agent token控制(decision_log减少上下文重建) | ¥400-600 |
| Preflight gate减少无效I2V | ¥60-100 |
| 订阅按需开启(不用不续) | ¥100-200 |
| 候选上限+局部修复减少无效首帧重生成 | ¥5-10 |
| 优化后预估总成本 | ¥1,200-1,600 |
降幅约28-46%,主要来自Agent token优化。
给你的建议
如果你正在规划一个AI视频项目,不管规模多大,建议从第一天开始做三件事:
- 建账本:不是做完再算总账。每花一笔都记:花在哪、为什么花、有没有更便宜的替代方案。成本日志是项目最有价值的产出之一。
- 区分"有效成本"和"浪费成本":不是所有支出都是浪费——学习和验证的成本是必要的。但要能区分"这个I2V生成是因为首帧真的通过了preflight"还是"懒得检查就扔进I2V试试看"。
- 不要把Agent当成无限免费的:Agent token是真实费用。每次对话前想清楚:这次对话是要解决什么具体问题?值多少钱?
想看你的项目大概要花多少钱?
提交你的项目brief(300-800字+预算区间+目标用途),我帮你做一个初步的成本和可行性评估。
附:成本追踪模板
如果你需要,这是我使用的成本追踪模板(简化版):
| 日期 | 类别 | 项目 | 金额 | 是否必要 | 替代方案 | 备注 |
|---|---|---|---|---|---|---|
| YYYY-MM-DD | I2V/Agent/订阅/生图 | 具体用途 | ¥XX | Y/N | 如果有的话 | 简短说明 |
建账本不需要复杂的工具。一个Markdown表格就够了。关键是从第一天就开始记。