我用AI Agent做视频的2周踩坑报告
这篇不是“AI视频教程”,而是一次真实项目的账本复盘。
项目是《静默纪元·守护》第一卷预告片:小说第一卷50章已完成,预告片方案5分10秒,拆成44个剪辑镜和82个首帧/动态生产单元。过去两周,我主要用 Codex + gpt-5.5 做制作方案、脚本和批处理,也切过 Claude Code + Claude Opus 4.7、opencode + MiMo、Qoder 等工具。
结论先说:AIGC视频最贵的不是单次生成,而是返工、等待、失败重试和角色一致性失控。
公开账本
| 项目 | 数据 |
|---|---|
| 小说素材 | 第一卷50章 |
| 预告片方案 | 5分10秒 |
| 剪辑镜 | 44个 |
| 首帧/动态生产单元 | 82个 |
| 当前生产状态 | 39 approved + 41 merged_to_i2v + 1 cut_from_edit + 1 revise |
| 6个复盘会话累计 | 约161小时 |
| user prompts | 137 |
| assistant messages | 1153 |
| tool calls | 2541 |
| 工具调用错误 | 211 |
| 成本汇总 | ¥2,234.67(含I2V估算,截至2026-05-22) |
| Agent token 总消耗 | 近10亿 tokens(Codex 5.73亿 + Claude Opus ~4.21亿) |
当前账本里,最值得关注的不是“成功生成了多少图”,而是失败和返工。
GPT-Image2 流水截至 2026-05-21 已记录 430 次,其中 331 次 done、99 次 failed。也就是说,单看图像生成,失败率约 23%。这还没算“生成成功但视觉上不能用”的情况。
I2V 这边,HappyHorse 720P 已记录 38 次成功调用,合计 220.1 秒,估算费用 ¥198.09;其中 PU 首帧转视频 18 次成功,world_intro 世界观短片 20 次成功。还有 1 次 PU080 的 SUBMIT_FAILED,原因是欠费,不计入成功费用。
成本拆开看
| 类别 | 金额 | 备注 |
|---|---|---|
| GPT-Image-2 生图 | 约 ¥26.25 | cost_log 当前API成本口径 |
| Claude Code / Opus 4.7 | ¥815.77 | 3个会话 |
| Codex / gpt-5.5 | ¥694.63 | 19个会话(从41个中按项目相关性筛选),非缓存输入6485万+缓存5.05亿+输出294万tokens |
| Claude Code / deepseek-v4-pro | ¥1.93 | 1个会话 |
| HappyHorse I2V | ¥198.09 | 38次成功,220.1秒,720P |
| Qoder 订阅 | ¥300.00 | 月费已消耗 |
| MiMo TTS 订阅 | ¥99.00 | 89次TTS在订阅内 |
| MiniMax 音乐订阅 | ¥99.00 | 3次音乐生成,月费未用完 |
Agent token 合计 ¥1,510.40,占总成本 67.6%。近 10 亿 tokens 消耗。
这组数据给我的提醒是:如果只看 GPT-Image2 单价,¥0.08/次很便宜;但一旦进入真实视频链路,Agent token、订阅、I2V秒数、失败重试和人工审片都会一起上来。
为什么切了这么多工具
完整链路涉及 6 套工具/模型组合:
- FeelFish:早期小说大纲、设定和第一卷规划。
- Hermes agent + deepseekV4Pro:大纲、第一卷校正和预告片剧本优化。
- Codex + gpt-5.5:制作方案、脚本、批处理、看板和交接文档。
- Claude Code + Claude Opus 4.7:部分重构、复杂上下文整理和长会话处理。
- opencode + MiMo:TTS、语音样条和替代 Agent 测试。
- Qoder:本地 IDE / Agent 工作流验证。
视频制作阶段真正发生切换的原因主要有三个:
第一,token 和额度。Codex + gpt-5.5 的官方 Plus 额度刷新等待太频繁,我后来找了 3 个中转站保障持续调用。
第二,稳定性。长链路任务里,Agent 容易在同一个失败方向上继续加码,例如继续整图重画,而不是局部修复。
第三,质量。前期要生成大量锚点图和首帧图,角色、比例、场景关系经常漂移。换工具不是为了追新,而是为了找到稳定产出路径。
最大坑:角色一致性
这次最典型的返工集中在三个地方:
| 问题 | 返工数据 | 具体表现 |
|---|---|---|
| SC02 屏障内部 | A 到 AH,约27张候选 | 屏障尺度、家庭位置、空间关系反复漂移 |
| SC08 能量回路 | LOOP + SCALE 共约21张 | 能量场容易变成城市级大场面,偏离“小范围闭环” |
| PU080 终幕担架镜头 | 至少12版 | 陈默状态、林晓/小雨关系、嘟嘟毛色和姿态持续出错 |
PU080 是反例教材。它从 v1 到 v10 加上 raw response,已经形成 12 版迭代;后面又继续到 v26。问题不是“提示词不够好”,而是画面里同时有陈默、林晓、小雨、嘟嘟、担架、废墟、终幕情绪,任何一个元素漂移都会让整张图不可用。
后来我把规则改成:局部瑕疵优先 inpaint,不再整图重画;含小雨的图尽量走 engineered crop -> gen -> paste,避免编辑接口审核和局部污染;单 PU 候选上限 5 个,超过就停。
真正有效的工作流
现在我会把流程拆成四层:
- 文本层:小说、预告片剧本、44镜、82个PU。
- 锚点层:7个角色锚点、12个物件锚点、关键场景锚点。
- 生产层:首帧、I2V、抽帧 contact sheet、看板状态。
- 账本层:cost_log、expense_log、token_log、human_time_log。
如果没有第4层,项目很容易变成“感觉还行”。有了账本以后,问题会变得非常具体:哪类镜头最贵,哪类错误最高频,哪个 Agent 会把同一个坑扩大。
这两周最重要的教训
第一,AIGC视频不是“生成视频”,而是资产管理。角色卡、场景锚点、物件锚点、状态表和命名规范,比单条提示词更重要。
第二,失败率必须公开。GPT-Image2 当前流水 430 次,99 次 failed;这还不包括视觉失败。真实项目里,失败不是异常,是成本模型的一部分。
第三,工具切换不能靠情绪。每次换工具都要回答:是额度问题、质量问题、稳定性问题,还是流程设计问题?如果是流程问题,换工具只会换一种失败方式。
第四,I2V 要按镜头时长规划。B1 最初 PU001-PU006 都跑 5s/720P,用户指出 5s 不足以演绎分镜后,才补跑 PU002=8s、PU005=6s、PU006=8s。默认 5 秒不是工作流,是偷懒。
第五,真正能变现的不是预告片本身,而是可复制的流程:锚点体系、成本表、I2V预处理、角色一致性修复和多 Agent 切换手册。
下一步
我会先做两件事:
- 把《静默纪元·守护》的案例页、预告片嵌入位和制作日志跑起来。
- 把这套工作流拆成可复用的资源:分镜模板、锚点体系、I2V流程、成本表、踩坑清单和删敏案例。
如果你也在做小说、短片或IP视觉化,我建议第一天就建账本。不要等项目做完才算成本。那时你看到的不是成本,是事故现场。