我用AI Agent做视频的2周踩坑报告

这篇不是“AI视频教程”，而是一次真实项目的账本复盘。

项目是《静默纪元·守护》第一卷预告片：小说第一卷50章已完成，预告片方案5分10秒，拆成44个剪辑镜和82个首帧/动态生产单元。过去两周，我主要用 Codex + gpt-5.5 做制作方案、脚本和批处理，也切过 Claude Code + Claude Opus 4.7、opencode + MiMo、Qoder 等工具。

结论先说：AIGC视频最贵的不是单次生成，而是返工、等待、失败重试和角色一致性失控。

公开账本

项目	数据
小说素材	第一卷50章
预告片方案	5分10秒
剪辑镜	44个
首帧/动态生产单元	82个
当前生产状态	39 approved + 41 merged_to_i2v + 1 cut_from_edit + 1 revise
6个复盘会话累计	约161小时
user prompts	137
assistant messages	1153
tool calls	2541
工具调用错误	211
成本汇总	¥2,234.67（含I2V估算，截至2026-05-22）
Agent token 总消耗	近10亿 tokens（Codex 5.73亿 + Claude Opus ~4.21亿）

当前账本里，最值得关注的不是“成功生成了多少图”，而是失败和返工。

GPT-Image2 流水截至 2026-05-21 已记录 430 次，其中 331 次 done、99 次 failed。也就是说，单看图像生成，失败率约 23%。这还没算“生成成功但视觉上不能用”的情况。

I2V 这边，HappyHorse 720P 已记录 38 次成功调用，合计 220.1 秒，估算费用 ¥198.09；其中 PU 首帧转视频 18 次成功，world_intro 世界观短片 20 次成功。还有 1 次 PU080 的 SUBMIT_FAILED，原因是欠费，不计入成功费用。

成本拆开看

类别	金额	备注
GPT-Image-2 生图	约 ¥26.25	cost_log 当前API成本口径
Claude Code / Opus 4.7	¥815.77	3个会话
Codex / gpt-5.5	¥694.63	19个会话（从41个中按项目相关性筛选），非缓存输入6485万+缓存5.05亿+输出294万tokens
Claude Code / deepseek-v4-pro	¥1.93	1个会话
HappyHorse I2V	¥198.09	38次成功，220.1秒，720P
Qoder 订阅	¥300.00	月费已消耗
MiMo TTS 订阅	¥99.00	89次TTS在订阅内
MiniMax 音乐订阅	¥99.00	3次音乐生成，月费未用完

Agent token 合计 ¥1,510.40，占总成本 67.6%。近 10 亿 tokens 消耗。

这组数据给我的提醒是：如果只看 GPT-Image2 单价，¥0.08/次很便宜；但一旦进入真实视频链路，Agent token、订阅、I2V秒数、失败重试和人工审片都会一起上来。

为什么切了这么多工具

完整链路涉及 6 套工具/模型组合：

FeelFish：早期小说大纲、设定和第一卷规划。
Hermes agent + deepseekV4Pro：大纲、第一卷校正和预告片剧本优化。
Codex + gpt-5.5：制作方案、脚本、批处理、看板和交接文档。
Claude Code + Claude Opus 4.7：部分重构、复杂上下文整理和长会话处理。
opencode + MiMo：TTS、语音样条和替代 Agent 测试。
Qoder：本地 IDE / Agent 工作流验证。

视频制作阶段真正发生切换的原因主要有三个：

第一，token 和额度。Codex + gpt-5.5 的官方 Plus 额度刷新等待太频繁，我后来找了 3 个中转站保障持续调用。

第二，稳定性。长链路任务里，Agent 容易在同一个失败方向上继续加码，例如继续整图重画，而不是局部修复。

第三，质量。前期要生成大量锚点图和首帧图，角色、比例、场景关系经常漂移。换工具不是为了追新，而是为了找到稳定产出路径。

最大坑：角色一致性

这次最典型的返工集中在三个地方：

问题	返工数据	具体表现
SC02 屏障内部	A 到 AH，约27张候选	屏障尺度、家庭位置、空间关系反复漂移
SC08 能量回路	LOOP + SCALE 共约21张	能量场容易变成城市级大场面，偏离“小范围闭环”
PU080 终幕担架镜头	至少12版	陈默状态、林晓/小雨关系、嘟嘟毛色和姿态持续出错

PU080 是反例教材。它从 v1 到 v10 加上 raw response，已经形成 12 版迭代；后面又继续到 v26。问题不是“提示词不够好”，而是画面里同时有陈默、林晓、小雨、嘟嘟、担架、废墟、终幕情绪，任何一个元素漂移都会让整张图不可用。

后来我把规则改成：局部瑕疵优先 inpaint，不再整图重画；含小雨的图尽量走 engineered crop -> gen -> paste，避免编辑接口审核和局部污染；单 PU 候选上限 5 个，超过就停。

真正有效的工作流

现在我会把流程拆成四层：

文本层：小说、预告片剧本、44镜、82个PU。
锚点层：7个角色锚点、12个物件锚点、关键场景锚点。
生产层：首帧、I2V、抽帧 contact sheet、看板状态。
账本层：cost_log、expense_log、token_log、human_time_log。

如果没有第4层，项目很容易变成“感觉还行”。有了账本以后，问题会变得非常具体：哪类镜头最贵，哪类错误最高频，哪个 Agent 会把同一个坑扩大。

这两周最重要的教训

第一，AIGC视频不是“生成视频”，而是资产管理。角色卡、场景锚点、物件锚点、状态表和命名规范，比单条提示词更重要。

第二，失败率必须公开。GPT-Image2 当前流水 430 次，99 次 failed；这还不包括视觉失败。真实项目里，失败不是异常，是成本模型的一部分。

第三，工具切换不能靠情绪。每次换工具都要回答：是额度问题、质量问题、稳定性问题，还是流程设计问题？如果是流程问题，换工具只会换一种失败方式。

第四，I2V 要按镜头时长规划。B1 最初 PU001-PU006 都跑 5s/720P，用户指出 5s 不足以演绎分镜后，才补跑 PU002=8s、PU005=6s、PU006=8s。默认 5 秒不是工作流，是偷懒。

第五，真正能变现的不是预告片本身，而是可复制的流程：锚点体系、成本表、I2V预处理、角色一致性修复和多 Agent 切换手册。

下一步

我会先做两件事：

把《静默纪元·守护》的案例页、预告片嵌入位和制作日志跑起来。
把这套工作流拆成可复用的资源：分镜模板、锚点体系、I2V流程、成本表、踩坑清单和删敏案例。

如果你也在做小说、短片或IP视觉化，我建议第一天就建账本。不要等项目做完才算成本。那时你看到的不是成本，是事故现场。

我用AI Agent做视频的2周踩坑报告 ​

公开账本 ​

成本拆开看 ​

为什么切了这么多工具 ​

最大坑：角色一致性 ​

真正有效的工作流 ​

这两周最重要的教训 ​

下一步 ​