Skip to content

我用AI Agent做视频的2周踩坑报告

这篇不是“AI视频教程”,而是一次真实项目的账本复盘。

项目是《静默纪元·守护》第一卷预告片:小说第一卷50章已完成,预告片方案5分10秒,拆成44个剪辑镜和82个首帧/动态生产单元。过去两周,我主要用 Codex + gpt-5.5 做制作方案、脚本和批处理,也切过 Claude Code + Claude Opus 4.7、opencode + MiMo、Qoder 等工具。

结论先说:AIGC视频最贵的不是单次生成,而是返工、等待、失败重试和角色一致性失控。

公开账本

项目数据
小说素材第一卷50章
预告片方案5分10秒
剪辑镜44个
首帧/动态生产单元82个
当前生产状态39 approved + 41 merged_to_i2v + 1 cut_from_edit + 1 revise
6个复盘会话累计约161小时
user prompts137
assistant messages1153
tool calls2541
工具调用错误211
成本汇总¥2,234.67(含I2V估算,截至2026-05-22)
Agent token 总消耗近10亿 tokens(Codex 5.73亿 + Claude Opus ~4.21亿)

当前账本里,最值得关注的不是“成功生成了多少图”,而是失败和返工。

GPT-Image2 流水截至 2026-05-21 已记录 430 次,其中 331 次 done、99 次 failed。也就是说,单看图像生成,失败率约 23%。这还没算“生成成功但视觉上不能用”的情况。

I2V 这边,HappyHorse 720P 已记录 38 次成功调用,合计 220.1 秒,估算费用 ¥198.09;其中 PU 首帧转视频 18 次成功,world_intro 世界观短片 20 次成功。还有 1 次 PU080 的 SUBMIT_FAILED,原因是欠费,不计入成功费用。

成本拆开看

类别金额备注
GPT-Image-2 生图约 ¥26.25cost_log 当前API成本口径
Claude Code / Opus 4.7¥815.773个会话
Codex / gpt-5.5¥694.6319个会话(从41个中按项目相关性筛选),非缓存输入6485万+缓存5.05亿+输出294万tokens
Claude Code / deepseek-v4-pro¥1.931个会话
HappyHorse I2V¥198.0938次成功,220.1秒,720P
Qoder 订阅¥300.00月费已消耗
MiMo TTS 订阅¥99.0089次TTS在订阅内
MiniMax 音乐订阅¥99.003次音乐生成,月费未用完

Agent token 合计 ¥1,510.40,占总成本 67.6%。近 10 亿 tokens 消耗。

这组数据给我的提醒是:如果只看 GPT-Image2 单价,¥0.08/次很便宜;但一旦进入真实视频链路,Agent token、订阅、I2V秒数、失败重试和人工审片都会一起上来。

为什么切了这么多工具

完整链路涉及 6 套工具/模型组合:

  1. FeelFish:早期小说大纲、设定和第一卷规划。
  2. Hermes agent + deepseekV4Pro:大纲、第一卷校正和预告片剧本优化。
  3. Codex + gpt-5.5:制作方案、脚本、批处理、看板和交接文档。
  4. Claude Code + Claude Opus 4.7:部分重构、复杂上下文整理和长会话处理。
  5. opencode + MiMo:TTS、语音样条和替代 Agent 测试。
  6. Qoder:本地 IDE / Agent 工作流验证。

视频制作阶段真正发生切换的原因主要有三个:

第一,token 和额度。Codex + gpt-5.5 的官方 Plus 额度刷新等待太频繁,我后来找了 3 个中转站保障持续调用。

第二,稳定性。长链路任务里,Agent 容易在同一个失败方向上继续加码,例如继续整图重画,而不是局部修复。

第三,质量。前期要生成大量锚点图和首帧图,角色、比例、场景关系经常漂移。换工具不是为了追新,而是为了找到稳定产出路径。

最大坑:角色一致性

这次最典型的返工集中在三个地方:

问题返工数据具体表现
SC02 屏障内部A 到 AH,约27张候选屏障尺度、家庭位置、空间关系反复漂移
SC08 能量回路LOOP + SCALE 共约21张能量场容易变成城市级大场面,偏离“小范围闭环”
PU080 终幕担架镜头至少12版陈默状态、林晓/小雨关系、嘟嘟毛色和姿态持续出错

PU080 是反例教材。它从 v1 到 v10 加上 raw response,已经形成 12 版迭代;后面又继续到 v26。问题不是“提示词不够好”,而是画面里同时有陈默、林晓、小雨、嘟嘟、担架、废墟、终幕情绪,任何一个元素漂移都会让整张图不可用。

后来我把规则改成:局部瑕疵优先 inpaint,不再整图重画;含小雨的图尽量走 engineered crop -> gen -> paste,避免编辑接口审核和局部污染;单 PU 候选上限 5 个,超过就停。

真正有效的工作流

现在我会把流程拆成四层:

  1. 文本层:小说、预告片剧本、44镜、82个PU。
  2. 锚点层:7个角色锚点、12个物件锚点、关键场景锚点。
  3. 生产层:首帧、I2V、抽帧 contact sheet、看板状态。
  4. 账本层:cost_log、expense_log、token_log、human_time_log。

如果没有第4层,项目很容易变成“感觉还行”。有了账本以后,问题会变得非常具体:哪类镜头最贵,哪类错误最高频,哪个 Agent 会把同一个坑扩大。

这两周最重要的教训

第一,AIGC视频不是“生成视频”,而是资产管理。角色卡、场景锚点、物件锚点、状态表和命名规范,比单条提示词更重要。

第二,失败率必须公开。GPT-Image2 当前流水 430 次,99 次 failed;这还不包括视觉失败。真实项目里,失败不是异常,是成本模型的一部分。

第三,工具切换不能靠情绪。每次换工具都要回答:是额度问题、质量问题、稳定性问题,还是流程设计问题?如果是流程问题,换工具只会换一种失败方式。

第四,I2V 要按镜头时长规划。B1 最初 PU001-PU006 都跑 5s/720P,用户指出 5s 不足以演绎分镜后,才补跑 PU002=8s、PU005=6s、PU006=8s。默认 5 秒不是工作流,是偷懒。

第五,真正能变现的不是预告片本身,而是可复制的流程:锚点体系、成本表、I2V预处理、角色一致性修复和多 Agent 切换手册。

下一步

我会先做两件事:

  1. 把《静默纪元·守护》的案例页、预告片嵌入位和制作日志跑起来。
  2. 把这套工作流拆成可复用的资源:分镜模板、锚点体系、I2V流程、成本表、踩坑清单和删敏案例。

如果你也在做小说、短片或IP视觉化,我建议第一天就建账本。不要等项目做完才算成本。那时你看到的不是成本,是事故现场。

AIGC workflow notes from a real IP production.