82个生产单元的AI视频失败复盘
如果你只看AI视频的成品demo,你会觉得"这技术差不多了"。但如果你亲自跑一个真实项目——从小说到预告片,44个镜头拆成82个生产单元——你会看到另一面:AI视频制作的主要活动不是"生成",而是"发现失败→诊断原因→决定修还是放弃"。
这篇文章是我对《静默纪元·守护》预告片项目82个生产单元(Production Unit, PU)的失败复盘。不是教程,不是工具评测,是一次真实的失败账本公开。
关键数据先上:
| 指标 | 数值 |
|---|---|
| 生产单元总数 | 82 |
| 首帧(keyframe)通过数 | 39(47.6%) |
| GPT-Image2 调用次数 | 430 |
| GPT-Image2 失败次数 | 99(23%) |
| I2V 成功调用 | 38次,220.1秒 |
| I2V 费用 | ¥198.09 |
| Agent token 消耗 | 近10亿 tokens(Codex 5.73亿 + Claude ~4.21亿) |
| 项目总成本 | ¥2,234.67 |
"通过率不到一半"不是AI太差,而是真实项目的质量标准比demo展示严格得多。
失败分类:不是所有失败都一样
82个PU中,我把失败分成五类。每一类的应对策略完全不同。
第一类:角色一致性失败(最高频、最贵)
典型症状:同一角色在不同镜头里长得不一样。衣服颜色变了、发型变了、脸型变了、年龄感变了。
三个最严重的案例:
| PU/场景 | 候选数 | 问题描述 |
|---|---|---|
| SC02 屏障内部 | 27张(A→AH) | 屏障尺度、家居布局、空间关系反复漂移。同一个"客厅被蓝色屏障笼罩"的描述,生成了27个不同的客厅。 |
| SC08 能量回路 | 21张 | 能量场被模型理解成"城市级大场面特效",而剧本要求的是"小范围闭环能量流动"。尺度感完全失控。 |
| PU080 终幕担架镜头 | 12+版 | 画面同时包含陈默、林晓、陈小雨、嘟嘟、担架、废墟、终幕情绪。7个元素,任何一个漂移都会导致整张图不可用。 |
根本原因:当前的AI图像/视频模型没有"角色身份持久性"。每次生成都是独立事件。你用同样的prompt生成两次,得到的是两个"相似但不相同"的角色。
修复策略的演变:
一开始我试图用更详细的prompt解决——描述头发长度、衣服款式、面部特征。效果有限。后来建立了角色锚点体系:每个主要角色锁定一张通过QA的参考图(锚点图),后续所有涉及该角色的生成都必须以锚点图为起点。
再后来发现,锚点图对单人近景有效,对多人同框、全身、侧脸、遮挡场景仍然不稳定。于是加了候选上限和局部修复策略:局部瑕疵用inpaint而不是整图重画;含特定角色(如陈小雨)的图走"裁剪→生成→贴回"的工程化流程。
当前状态:角色一致性仍然是最大痛点,但已经从"完全不可控"变成"可控范围有限"。"受控暴力"——锚点+候选上限+preflight gate+局部修复——是现阶段最靠谱的组合。
教训:不要试图用更长的prompt解决角色一致性问题。它是一个系统问题,需要系统方案:角色bible + 锚点图 + 候选上限 + 局部修复 + QA标准。
第二类:空间/尺度漂移(容易被忽略)
典型症状:场景的空间关系、尺度感、透视和模型预期不一致。
案例:SC08能量回路被模型理解成"城市毁灭级特效",而不是"小范围闭环"。SC07废墟场景的背景建筑比例反复失调。屏障内部场景(SC02)家具布局每次生成都不一样。
根本原因:模型对"尺度感"没有真正的空间理解。它知道"废墟"长什么样,但不知道"这个废墟在画面中应该占多大比例、离镜头多远"。
修复策略:在prompt中加空间约束词("小范围"、"中景"、"占据画面1/3")、使用参考图约束构图、对关键场景建立场景锚点图。
教训:大场景和特效类镜头的prompt要特别关注尺度约束,否则模型倾向于"越大越炫"。
第三类:多人同框崩坏
典型症状:两人以上的画面中,角色之间的空间关系、比例关系、视线方向出错。
PU080就是这个问题的集大成者。陈默躺在担架上,林晓在旁,陈小雨在侧,嘟嘟蹲守——四个角色同时在场,加上废墟背景和"终幕情绪"的氛围要求。
根本原因:当前模型对多人空间关系的理解很弱。两个人的互动还能勉强处理,三个以上角色的空间位置、比例关系、视线方向几乎不可控。
修复策略:对于多人镜头,优先考虑"拆分+合成"路线(分别生成角色再合成),而不是试图一次性生成。或者,降级为"暗示性镜头"——不拍所有人同框,用分镜暗示空间关系。
教训:多人同框是当前AI视频的真实能力边界之一。如果剧本里有多个多人同框镜头,要么准备大量返工预算,要么改分镜。
第四类:I2V阶段的失败(最贵)
典型症状:首帧看起来没问题,但转成视频后出现跳帧、闪烁、物体变形、运动不自然。
根本原因:I2V(Image-to-Video)模型在首帧基础上生成后续帧时,可能产生不符合物理规律的运动、物体消失/变形、帧间不一致。
这是最贵的失败类型——因为等你发现时,已经花了一张首帧的生成费用+I2V的生成费用+QA时间+等待时间。这也是为什么我在后续流程中加入了I2V Preflight Gate:每个首帧在进入I2V前必须通过4项检查(锚点满足度、空间关系稳定性、运动可行性、高风险崩坏点),12分制,10分以上才允许进入I2V。
教训:最贵的不是失败本身,而是"晚发现失败"。在首帧阶段花¥0.08识别问题,比在I2V阶段花¥2-5/秒后发现,便宜50-100倍。
第五类:工具/平台层面的失败
GPT-Image2的430次调用中,99次是技术性失败(23%失败率)。PU080有一次SUBMIT_FAILED因为欠费。Agent在长任务中偶尔跑偏方向,在同一个错误方向上继续生成。
这些不是"AI能力问题",是工作流基础设施问题。但它们的累积效应会严重拖慢节奏。
修复策略:成本日志实时追踪余额、Agent任务卡+候选上限防止跑偏、关键步骤人工闸口。
失败的代价:多少钱花在了"没用的生成"上
一个粗略的估算:
- GPT-Image2:430次调用,99次技术失败。如果331次done中有30%是"生成出来但视觉上不能用"的(保守估计),那有效生成约232次,浪费约198次。按¥0.08/次算,图像阶段的浪费约¥15.84——看起来不多。
- I2V:38次成功调用,220.1秒,¥198.09。但如果算上"每个通过镜头背后有2-3个首帧候选",以及"preflight gate能挡掉30%",这意味着可能还有约¥60-100的I2V费用烧在了不会通过的方向上。
- 真正的成本是时间:每发现一次失败,不只是API调用费,还有QA时间、等待I2V生成的时间、重新规划策略的时间、切换Agent的上下文重建成本。
从失败到规则
这个项目最重要的产出不是39张keyframe,而是以下规则:
- 候选上限:简单PU 2个候选,普通3个,复杂4个,英雄/瓶颈最多5个。超过上限不改prompt继续抽卡,而是改策略。
- Preflight Gate:首帧→I2V前,4项检查(锚点、空间、运动可行性、崩坏点),12分制10分通过。
- 局部修复优先:局部瑕疵用inpaint,不整图重画。
- 锚点体系:角色锚点+场景锚点+物件锚点,后续生成必须基于锚点出发。
- 72小时硬截止:每个镜头的制作周期不超过72小时,到期发不发布都止损。
这些规则的共同逻辑是:不在同一个方向上反复失败。
CTA
如果你也在做AI视频项目,遇到类似的角色一致性、多人同框、I2V稳定性问题——可以提交你的项目brief,我帮你做一个可行性评估:哪些镜头可以AI搞定,哪些建议改分镜或降级,大概的成本和周期。