82个生产单元的AI视频失败复盘

如果你只看AI视频的成品demo，你会觉得"这技术差不多了"。但如果你亲自跑一个真实项目——从小说到预告片，44个镜头拆成82个生产单元——你会看到另一面：AI视频制作的主要活动不是"生成"，而是"发现失败→诊断原因→决定修还是放弃"。

这篇文章是我对《静默纪元·守护》预告片项目82个生产单元（Production Unit, PU）的失败复盘。不是教程，不是工具评测，是一次真实的失败账本公开。

关键数据先上：

指标	数值
生产单元总数	82
首帧（keyframe）通过数	39（47.6%）
GPT-Image2 调用次数	430
GPT-Image2 失败次数	99（23%）
I2V 成功调用	38次，220.1秒
I2V 费用	¥198.09
Agent token 消耗	近10亿 tokens（Codex 5.73亿 + Claude ~4.21亿）
项目总成本	¥2,234.67

"通过率不到一半"不是AI太差，而是真实项目的质量标准比demo展示严格得多。

失败分类：不是所有失败都一样

82个PU中，我把失败分成五类。每一类的应对策略完全不同。

第一类：角色一致性失败（最高频、最贵）

典型症状：同一角色在不同镜头里长得不一样。衣服颜色变了、发型变了、脸型变了、年龄感变了。

三个最严重的案例：

PU/场景	候选数	问题描述
SC02 屏障内部	27张（A→AH）	屏障尺度、家居布局、空间关系反复漂移。同一个"客厅被蓝色屏障笼罩"的描述，生成了27个不同的客厅。
SC08 能量回路	21张	能量场被模型理解成"城市级大场面特效"，而剧本要求的是"小范围闭环能量流动"。尺度感完全失控。
PU080 终幕担架镜头	12+版	画面同时包含陈默、林晓、陈小雨、嘟嘟、担架、废墟、终幕情绪。7个元素，任何一个漂移都会导致整张图不可用。

根本原因：当前的AI图像/视频模型没有"角色身份持久性"。每次生成都是独立事件。你用同样的prompt生成两次，得到的是两个"相似但不相同"的角色。

修复策略的演变：

一开始我试图用更详细的prompt解决——描述头发长度、衣服款式、面部特征。效果有限。后来建立了角色锚点体系：每个主要角色锁定一张通过QA的参考图（锚点图），后续所有涉及该角色的生成都必须以锚点图为起点。

再后来发现，锚点图对单人近景有效，对多人同框、全身、侧脸、遮挡场景仍然不稳定。于是加了候选上限和局部修复策略：局部瑕疵用inpaint而不是整图重画；含特定角色（如陈小雨）的图走"裁剪→生成→贴回"的工程化流程。

当前状态：角色一致性仍然是最大痛点，但已经从"完全不可控"变成"可控范围有限"。"受控暴力"——锚点+候选上限+preflight gate+局部修复——是现阶段最靠谱的组合。

教训：不要试图用更长的prompt解决角色一致性问题。它是一个系统问题，需要系统方案：角色bible + 锚点图 + 候选上限 + 局部修复 + QA标准。

第二类：空间/尺度漂移（容易被忽略）

典型症状：场景的空间关系、尺度感、透视和模型预期不一致。

案例：SC08能量回路被模型理解成"城市毁灭级特效"，而不是"小范围闭环"。SC07废墟场景的背景建筑比例反复失调。屏障内部场景（SC02）家具布局每次生成都不一样。

根本原因：模型对"尺度感"没有真正的空间理解。它知道"废墟"长什么样，但不知道"这个废墟在画面中应该占多大比例、离镜头多远"。

修复策略：在prompt中加空间约束词（"小范围"、"中景"、"占据画面1/3"）、使用参考图约束构图、对关键场景建立场景锚点图。

教训：大场景和特效类镜头的prompt要特别关注尺度约束，否则模型倾向于"越大越炫"。

第三类：多人同框崩坏

典型症状：两人以上的画面中，角色之间的空间关系、比例关系、视线方向出错。

PU080就是这个问题的集大成者。陈默躺在担架上，林晓在旁，陈小雨在侧，嘟嘟蹲守——四个角色同时在场，加上废墟背景和"终幕情绪"的氛围要求。

根本原因：当前模型对多人空间关系的理解很弱。两个人的互动还能勉强处理，三个以上角色的空间位置、比例关系、视线方向几乎不可控。

修复策略：对于多人镜头，优先考虑"拆分+合成"路线（分别生成角色再合成），而不是试图一次性生成。或者，降级为"暗示性镜头"——不拍所有人同框，用分镜暗示空间关系。

教训：多人同框是当前AI视频的真实能力边界之一。如果剧本里有多个多人同框镜头，要么准备大量返工预算，要么改分镜。

第四类：I2V阶段的失败（最贵）

典型症状：首帧看起来没问题，但转成视频后出现跳帧、闪烁、物体变形、运动不自然。

根本原因：I2V（Image-to-Video）模型在首帧基础上生成后续帧时，可能产生不符合物理规律的运动、物体消失/变形、帧间不一致。

这是最贵的失败类型——因为等你发现时，已经花了一张首帧的生成费用+I2V的生成费用+QA时间+等待时间。这也是为什么我在后续流程中加入了I2V Preflight Gate：每个首帧在进入I2V前必须通过4项检查（锚点满足度、空间关系稳定性、运动可行性、高风险崩坏点），12分制，10分以上才允许进入I2V。

教训：最贵的不是失败本身，而是"晚发现失败"。在首帧阶段花¥0.08识别问题，比在I2V阶段花¥2-5/秒后发现，便宜50-100倍。

第五类：工具/平台层面的失败

GPT-Image2的430次调用中，99次是技术性失败（23%失败率）。PU080有一次SUBMIT_FAILED因为欠费。Agent在长任务中偶尔跑偏方向，在同一个错误方向上继续生成。

这些不是"AI能力问题"，是工作流基础设施问题。但它们的累积效应会严重拖慢节奏。

修复策略：成本日志实时追踪余额、Agent任务卡+候选上限防止跑偏、关键步骤人工闸口。

失败的代价：多少钱花在了"没用的生成"上

一个粗略的估算：

GPT-Image2：430次调用，99次技术失败。如果331次done中有30%是"生成出来但视觉上不能用"的（保守估计），那有效生成约232次，浪费约198次。按¥0.08/次算，图像阶段的浪费约¥15.84——看起来不多。
I2V：38次成功调用，220.1秒，¥198.09。但如果算上"每个通过镜头背后有2-3个首帧候选"，以及"preflight gate能挡掉30%"，这意味着可能还有约¥60-100的I2V费用烧在了不会通过的方向上。
真正的成本是时间：每发现一次失败，不只是API调用费，还有QA时间、等待I2V生成的时间、重新规划策略的时间、切换Agent的上下文重建成本。

从失败到规则

这个项目最重要的产出不是39张keyframe，而是以下规则：

候选上限：简单PU 2个候选，普通3个，复杂4个，英雄/瓶颈最多5个。超过上限不改prompt继续抽卡，而是改策略。
Preflight Gate：首帧→I2V前，4项检查（锚点、空间、运动可行性、崩坏点），12分制10分通过。
局部修复优先：局部瑕疵用inpaint，不整图重画。
锚点体系：角色锚点+场景锚点+物件锚点，后续生成必须基于锚点出发。
72小时硬截止：每个镜头的制作周期不超过72小时，到期发不发布都止损。

这些规则的共同逻辑是：不在同一个方向上反复失败。

CTA

如果你也在做AI视频项目，遇到类似的角色一致性、多人同框、I2V稳定性问题——可以提交你的项目brief，我帮你做一个可行性评估：哪些镜头可以AI搞定，哪些建议改分镜或降级，大概的成本和周期。

查看可复用资源与工具 →

82个生产单元的AI视频失败复盘 ​

失败分类：不是所有失败都一样 ​

第一类：角色一致性失败（最高频、最贵） ​

第二类：空间/尺度漂移（容易被忽略） ​

第三类：多人同框崩坏 ​

第四类：I2V阶段的失败（最贵） ​

第五类：工具/平台层面的失败 ​

失败的代价：多少钱花在了"没用的生成"上 ​

从失败到规则 ​

CTA ​