从小说到预告片:AIGC影视化完整工作流
如果你有一段文字——一本小说、一个剧本、一个世界观设定——想把它做成一支AI视频,你不是缺"一个更好的提示词"。你缺的是一套完整的生产管线。
这篇文章拆解我目前使用的四层工作流架构:文本层、锚点层、生产层、账本层。这套流程经过了《静默纪元·守护》预告片82个PU的实际验证,包含了所有踩过的坑和修过的策略。
总体架构:四层模型
文本层:小说 → 预告片剧本 → 分镜表(44镜) → PU拆解(82单元)
↓
锚点层:角色锚点(7个) + 场景锚点 + 物件锚点(12个)
↓
生产层:首帧生成 → Preflight Gate → I2V → QA → 合成
↓
账本层:cost_log + token_log + attempt ledger + 决策记录每一层的产出物必须是"下一层可以直接使用的输入",不依赖人的记忆和上下文。
第一层:文本层 — 从小说到生产单元
1.1 预告片剧本
小说第一卷50章约10万字,不可能全量视频化。第一步是写一个预告片剧本——不是小说章节摘要,而是一个独立的、适合视觉呈现的叙事结构。
《静默纪元·守护》预告片剧本采用了5幕结构:
| 幕 | 内容 | 时长 | 镜头数 |
|---|---|---|---|
| 第一幕:序幕 | 灾难降临,陈默一家被困 | ~1min | 8镜 |
| 第二幕:守护 | 屏障形成,隔离时空 | ~1min | 10镜 |
| 第三幕:代价 | 十年流逝,陈默的衰老 | ~1min | 9镜 |
| 第四幕:回声 | 屏障内外,记忆碎片 | ~1min | 9镜 |
| 第五幕:黎明 | 屏障解除,新纪元到来 | ~1min10s | 8镜 |
关键原则:剧本包含每镜的旁白文案、画面描述(镜头语言、构图方向、色调)、参考时长。这三项是后续首帧prompt和I2V生成的基础。
1.2 分镜表
剧本写好后,拆成分镜表(Shot List)——每个镜头的视觉规格书。
每个镜头的分镜信息包含:镜号、时长、画面描述、机位/运动方向、角色出现列表、场景、情绪/色调、是否需要特效。
44镜分镜表不是一次性完成的。在后续锚点和首帧阶段,有3个镜头因为"AI根本无法实现描述的构图"而被重写。
1.3 PU拆解
分镜表和AI生成之间还有一层:生产单元(Production Unit, PU)。
一个PU = 一个可独立生成和QA的视觉单元。44镜被拆成82个PU,因为:
- 某些镜头包含多个独立生成的元素(分别生成角色和场景再合成)
- 某些镜头需要多个I2V片段拼接到一起
- 某些复杂镜头拆成几个简单PU,降低单次生成复杂度
PU拆解的核心判断:这个镜头的复杂度是否超过了当前AI模型的一次生成能力上限?如果超过,拆。如果不确定,先试一次再决定拆不拆。
第二层:锚点层 — 视觉一致性的基础设施
这是整个工作流中最关键的一层。没有锚点体系,你的角色会在第10个镜头上变成另一个人。
2.1 角色锚点
每个主要角色锁定一张锚点图(Anchor Image)——经过严格QA的高质量keyframe,后续所有涉及该角色的生成都以锚点图为视觉基准。
《静默纪元·守护》的角色锚点:
| 锚点ID | 角色 | 关键视觉特征 |
|---|---|---|
| C1 | 陈默 | 深色工装、32岁→白发苍老、手抖 |
| C2 | 林晓 | 浅色衣物、及肩黑发、30岁 |
| C3 | 陈小雨 | 粉色小兔睡衣、圆脸、2岁→12岁 |
| C4 | 嘟嘟 | 银灰虎斑美短、右后爪白斑、左耳旧伤 |
每个锚点除了图,还有一个锚点卡:记录该角色的视觉特征、服装规范、禁止事项(比如"陈默不穿军装/制服")。
2.2 场景锚点
关键场景也需要锚点图。SC02(屏障内部客厅)、SC05(废墟城市远景)、SC07(终幕废墟)都有各自的场景锚点。场景锚点的作用是:确保同一场景在不同镜头中看起来是同一个地方。
2.3 物件锚点
反复出现的关键物件也建了锚点图:屏障球体、能量回路、担架、陈默的记录本等。物件锚点不需要和角色锚点一样的严格度,但能大幅减少"这个道具上一镜和下一镜长得不一样"的问题。
2.4 锚点不是一次性的
锚点体系需要持续维护。新镜头如果产生了比现有锚点更好的视觉参考,需要判断:更新锚点 or 保留现有锚点?更新会影响已完成的、基于旧锚点的镜头吗?
原则:一旦锚点被用于I2V生成,就锁定。新发现更好的版本可以替换锚点,但要回溯检查已生成内容是否兼容。
第三层:生产层 — 从首帧到成片
3.1 首帧生成
用GPT-Image-2生成静态keyframe。当前策略:
- 基于锚点+分镜描述生成:prompt包含角色锚点描述、场景锚点描述、镜头运动方向、色调和情绪
- 候选上限:简单PU 2个候选、普通3个、复杂4个、英雄/瓶颈最多5个
- 超过上限仍不通过:不继续抽卡,改prompt、拆PU、降目标或换表达方式
3.2 Preflight Gate(I2V前的最后检查)
每个首帧在进入I2V生成前,必须通过4项检查(每项3分,12分制,10分以上通过):
- 锚点满足度:角色/场景/物件是否与锚点一致
- 空间关系稳定性:主体间的空间位置、比例、遮挡关系是否合理
- 运动可行性:I2V模型能否基于这张图生成合理运动(静态构图比复杂动作更安全)
- 高风险崩坏点:手、脸、肢体、透视、大场景细节——是否有可能在I2V中崩坏
Preflight Gate的ROI:如果在首帧阶段(¥0.08-0.16/次)识别出30%的问题方向,避免它们进入I2V(¥2-5/秒),单轮节省约¥60-100。
3.3 I2V生成
使用HappyHorse I2V 720P。关键参数和约束:
- 时长根据分镜需求设定(5-8秒居多,不是统一默认值)
- 运动提示词关注"可行"而非"炫酷"(缓慢推拉比快速摇镜更稳定)
- I2V输出后做contact sheet(抽帧对比),检查帧间一致性
3.4 QA标准
单镜纳入剪辑的最低标准(不是"好不好看",是"能不能用"):
- 无明显形变/扭曲,角色身份可辨认
- 无色彩严重偏色
- I2V画面无跳帧或剧烈闪烁
- 叙事意图是否清楚(不一定是"完美",但观众能看懂这个镜头要表达什么)
- 是否能证明工作流的价值(不追求"像电影",追求"客户看完知道你能把文本变成视觉方案")
不达标的镜头跳过不停滞整体节奏。
第四层:账本层 — 让成本可见
4.1 成本追踪
| 追踪项 | 记录内容 |
|---|---|
| cost_log | API调用费用(每次调用的token消耗和费用) |
| token_log | Agent会话token使用量 |
| expense_log | 工具订阅费用(Qoder ¥300/mo、MiMo ¥99/mo、MiniMax ¥99/mo) |
| attempt ledger | 每个PU的候选数、失败类型、决策、下游返工 |
4.2 四个核心指标
- cost_per_accepted_keyframe:平均每张通过QA的keyframe花了多少钱
- cost_per_accepted_second:平均每秒通过QA的I2V视频花了多少钱(含返工)
- late_failure_rate:到I2V或合成阶段才发现失败的比例
- avoidable_i2v_burn:本该在首帧阶段挡掉、但实际烧到I2V的费用
这四个指标的目的不是做会计,而是让你知道哪个环节在吞预算。
工具链与切换逻辑
完整链路涉及6套工具:
| 工具 | 定位 | 使用场景 |
|---|---|---|
| GPT-Image-2 | 图像生成 | 首帧、变体、修复 |
| HappyHorse I2V | 视频生成 | 首帧转动态视频 |
| Claude Code + Opus 4.7 | 主Agent | 策略、设计、审查、长会话 |
| Codex + GPT-5.5 | 外部视角 | 市场研究、成本分析、独立判断 |
| Qwen3-TTS / MiMo | 语音合成 | 旁白配音 |
| FFmpeg | 合成 | 视频拼接、音轨同步 |
切换原则:每次换工具要回答——是额度问题、质量问题、稳定性问题,还是流程问题?如果是流程问题,换工具只会换一种失败方式。
这套工作流的可复制性
这套流程不是《静默纪元·守护》专用。任何"从文本到AI视频"的项目都可以复用:
- 文本层:任何有小说/剧本/IP文本的项目
- 锚点层:任何需要角色视觉一致性的项目
- 生产层:任何使用I2V模型的项目
- 账本层:任何想控制成本的AIGC项目
如果你在做类似的项目,建议第一步不是研究提示词技巧,而是先建角色锚点和成本账本。