从小说到预告片：AIGC影视化完整工作流

如果你有一段文字——一本小说、一个剧本、一个世界观设定——想把它做成一支AI视频，你不是缺"一个更好的提示词"。你缺的是一套完整的生产管线。

这篇文章拆解我目前使用的四层工作流架构：文本层、锚点层、生产层、账本层。这套流程经过了《静默纪元·守护》预告片82个PU的实际验证，包含了所有踩过的坑和修过的策略。

总体架构：四层模型

文本层：小说 → 预告片剧本 → 分镜表（44镜） → PU拆解（82单元）
    ↓
锚点层：角色锚点（7个） + 场景锚点 + 物件锚点（12个）
    ↓
生产层：首帧生成 → Preflight Gate → I2V → QA → 合成
    ↓
账本层：cost_log + token_log + attempt ledger + 决策记录

每一层的产出物必须是"下一层可以直接使用的输入"，不依赖人的记忆和上下文。

第一层：文本层 — 从小说到生产单元

1.1 预告片剧本

小说第一卷50章约10万字，不可能全量视频化。第一步是写一个预告片剧本——不是小说章节摘要，而是一个独立的、适合视觉呈现的叙事结构。

《静默纪元·守护》预告片剧本采用了5幕结构：

幕	内容	时长	镜头数
第一幕：序幕	灾难降临，陈默一家被困	~1min	8镜
第二幕：守护	屏障形成，隔离时空	~1min	10镜
第三幕：代价	十年流逝，陈默的衰老	~1min	9镜
第四幕：回声	屏障内外，记忆碎片	~1min	9镜
第五幕：黎明	屏障解除，新纪元到来	~1min10s	8镜

关键原则：剧本包含每镜的旁白文案、画面描述（镜头语言、构图方向、色调）、参考时长。这三项是后续首帧prompt和I2V生成的基础。

1.2 分镜表

剧本写好后，拆成分镜表（Shot List）——每个镜头的视觉规格书。

每个镜头的分镜信息包含：镜号、时长、画面描述、机位/运动方向、角色出现列表、场景、情绪/色调、是否需要特效。

44镜分镜表不是一次性完成的。在后续锚点和首帧阶段，有3个镜头因为"AI根本无法实现描述的构图"而被重写。

1.3 PU拆解

分镜表和AI生成之间还有一层：生产单元（Production Unit, PU）。

一个PU = 一个可独立生成和QA的视觉单元。44镜被拆成82个PU，因为：

某些镜头包含多个独立生成的元素（分别生成角色和场景再合成）
某些镜头需要多个I2V片段拼接到一起
某些复杂镜头拆成几个简单PU，降低单次生成复杂度

PU拆解的核心判断：这个镜头的复杂度是否超过了当前AI模型的一次生成能力上限？如果超过，拆。如果不确定，先试一次再决定拆不拆。

第二层：锚点层 — 视觉一致性的基础设施

这是整个工作流中最关键的一层。没有锚点体系，你的角色会在第10个镜头上变成另一个人。

2.1 角色锚点

每个主要角色锁定一张锚点图（Anchor Image）——经过严格QA的高质量keyframe，后续所有涉及该角色的生成都以锚点图为视觉基准。

《静默纪元·守护》的角色锚点：

锚点ID	角色	关键视觉特征
C1	陈默	深色工装、32岁→白发苍老、手抖
C2	林晓	浅色衣物、及肩黑发、30岁
C3	陈小雨	粉色小兔睡衣、圆脸、2岁→12岁
C4	嘟嘟	银灰虎斑美短、右后爪白斑、左耳旧伤

每个锚点除了图，还有一个锚点卡：记录该角色的视觉特征、服装规范、禁止事项（比如"陈默不穿军装/制服"）。

2.2 场景锚点

关键场景也需要锚点图。SC02（屏障内部客厅）、SC05（废墟城市远景）、SC07（终幕废墟）都有各自的场景锚点。场景锚点的作用是：确保同一场景在不同镜头中看起来是同一个地方。

2.3 物件锚点

反复出现的关键物件也建了锚点图：屏障球体、能量回路、担架、陈默的记录本等。物件锚点不需要和角色锚点一样的严格度，但能大幅减少"这个道具上一镜和下一镜长得不一样"的问题。

2.4 锚点不是一次性的

锚点体系需要持续维护。新镜头如果产生了比现有锚点更好的视觉参考，需要判断：更新锚点 or 保留现有锚点？更新会影响已完成的、基于旧锚点的镜头吗？

原则：一旦锚点被用于I2V生成，就锁定。新发现更好的版本可以替换锚点，但要回溯检查已生成内容是否兼容。

第三层：生产层 — 从首帧到成片

3.1 首帧生成

用GPT-Image-2生成静态keyframe。当前策略：

基于锚点+分镜描述生成：prompt包含角色锚点描述、场景锚点描述、镜头运动方向、色调和情绪
候选上限：简单PU 2个候选、普通3个、复杂4个、英雄/瓶颈最多5个
超过上限仍不通过：不继续抽卡，改prompt、拆PU、降目标或换表达方式

3.2 Preflight Gate（I2V前的最后检查）

每个首帧在进入I2V生成前，必须通过4项检查（每项3分，12分制，10分以上通过）：

锚点满足度：角色/场景/物件是否与锚点一致
空间关系稳定性：主体间的空间位置、比例、遮挡关系是否合理
运动可行性：I2V模型能否基于这张图生成合理运动（静态构图比复杂动作更安全）
高风险崩坏点：手、脸、肢体、透视、大场景细节——是否有可能在I2V中崩坏

Preflight Gate的ROI：如果在首帧阶段（¥0.08-0.16/次）识别出30%的问题方向，避免它们进入I2V（¥2-5/秒），单轮节省约¥60-100。

3.3 I2V生成

使用HappyHorse I2V 720P。关键参数和约束：

时长根据分镜需求设定（5-8秒居多，不是统一默认值）
运动提示词关注"可行"而非"炫酷"（缓慢推拉比快速摇镜更稳定）
I2V输出后做contact sheet（抽帧对比），检查帧间一致性

3.4 QA标准

单镜纳入剪辑的最低标准（不是"好不好看"，是"能不能用"）：

无明显形变/扭曲，角色身份可辨认
无色彩严重偏色
I2V画面无跳帧或剧烈闪烁
叙事意图是否清楚（不一定是"完美"，但观众能看懂这个镜头要表达什么）
是否能证明工作流的价值（不追求"像电影"，追求"客户看完知道你能把文本变成视觉方案"）

不达标的镜头跳过不停滞整体节奏。

第四层：账本层 — 让成本可见

4.1 成本追踪

追踪项	记录内容
cost_log	API调用费用（每次调用的token消耗和费用）
token_log	Agent会话token使用量
expense_log	工具订阅费用（Qoder ¥300/mo、MiMo ¥99/mo、MiniMax ¥99/mo）
attempt ledger	每个PU的候选数、失败类型、决策、下游返工

4.2 四个核心指标

cost_per_accepted_keyframe：平均每张通过QA的keyframe花了多少钱
cost_per_accepted_second：平均每秒通过QA的I2V视频花了多少钱（含返工）
late_failure_rate：到I2V或合成阶段才发现失败的比例
avoidable_i2v_burn：本该在首帧阶段挡掉、但实际烧到I2V的费用

这四个指标的目的不是做会计，而是让你知道哪个环节在吞预算。

工具链与切换逻辑

完整链路涉及6套工具：

工具	定位	使用场景
GPT-Image-2	图像生成	首帧、变体、修复
HappyHorse I2V	视频生成	首帧转动态视频
Claude Code + Opus 4.7	主Agent	策略、设计、审查、长会话
Codex + GPT-5.5	外部视角	市场研究、成本分析、独立判断
Qwen3-TTS / MiMo	语音合成	旁白配音
FFmpeg	合成	视频拼接、音轨同步

切换原则：每次换工具要回答——是额度问题、质量问题、稳定性问题，还是流程问题？如果是流程问题，换工具只会换一种失败方式。

这套工作流的可复制性

这套流程不是《静默纪元·守护》专用。任何"从文本到AI视频"的项目都可以复用：

文本层：任何有小说/剧本/IP文本的项目
锚点层：任何需要角色视觉一致性的项目
生产层：任何使用I2V模型的项目
账本层：任何想控制成本的AIGC项目

如果你在做类似的项目，建议第一步不是研究提示词技巧，而是先建角色锚点和成本账本。

查看可复用资源与工具 →

从小说到预告片：AIGC影视化完整工作流 ​

总体架构：四层模型 ​

第一层：文本层 — 从小说到生产单元 ​

1.1 预告片剧本 ​

1.2 分镜表 ​

1.3 PU拆解 ​

第二层：锚点层 — 视觉一致性的基础设施 ​

2.1 角色锚点 ​

2.2 场景锚点 ​

2.3 物件锚点 ​

2.4 锚点不是一次性的 ​

第三层：生产层 — 从首帧到成片 ​

3.1 首帧生成 ​

3.2 Preflight Gate（I2V前的最后检查） ​

3.3 I2V生成 ​

3.4 QA标准 ​

第四层：账本层 — 让成本可见 ​

4.1 成本追踪 ​

4.2 四个核心指标 ​

工具链与切换逻辑 ​

这套工作流的可复制性 ​