Skip to content

从小说到预告片:AIGC影视化完整工作流

如果你有一段文字——一本小说、一个剧本、一个世界观设定——想把它做成一支AI视频,你不是缺"一个更好的提示词"。你缺的是一套完整的生产管线。

这篇文章拆解我目前使用的四层工作流架构:文本层、锚点层、生产层、账本层。这套流程经过了《静默纪元·守护》预告片82个PU的实际验证,包含了所有踩过的坑和修过的策略。


总体架构:四层模型

文本层:小说 → 预告片剧本 → 分镜表(44镜) → PU拆解(82单元)

锚点层:角色锚点(7个) + 场景锚点 + 物件锚点(12个)

生产层:首帧生成 → Preflight Gate → I2V → QA → 合成

账本层:cost_log + token_log + attempt ledger + 决策记录

每一层的产出物必须是"下一层可以直接使用的输入",不依赖人的记忆和上下文。


第一层:文本层 — 从小说到生产单元

1.1 预告片剧本

小说第一卷50章约10万字,不可能全量视频化。第一步是写一个预告片剧本——不是小说章节摘要,而是一个独立的、适合视觉呈现的叙事结构。

《静默纪元·守护》预告片剧本采用了5幕结构:

内容时长镜头数
第一幕:序幕灾难降临,陈默一家被困~1min8镜
第二幕:守护屏障形成,隔离时空~1min10镜
第三幕:代价十年流逝,陈默的衰老~1min9镜
第四幕:回声屏障内外,记忆碎片~1min9镜
第五幕:黎明屏障解除,新纪元到来~1min10s8镜

关键原则:剧本包含每镜的旁白文案画面描述(镜头语言、构图方向、色调)、参考时长。这三项是后续首帧prompt和I2V生成的基础。

1.2 分镜表

剧本写好后,拆成分镜表(Shot List)——每个镜头的视觉规格书。

每个镜头的分镜信息包含:镜号、时长、画面描述、机位/运动方向、角色出现列表、场景、情绪/色调、是否需要特效。

44镜分镜表不是一次性完成的。在后续锚点和首帧阶段,有3个镜头因为"AI根本无法实现描述的构图"而被重写。

1.3 PU拆解

分镜表和AI生成之间还有一层:生产单元(Production Unit, PU)

一个PU = 一个可独立生成和QA的视觉单元。44镜被拆成82个PU,因为:

  • 某些镜头包含多个独立生成的元素(分别生成角色和场景再合成)
  • 某些镜头需要多个I2V片段拼接到一起
  • 某些复杂镜头拆成几个简单PU,降低单次生成复杂度

PU拆解的核心判断:这个镜头的复杂度是否超过了当前AI模型的一次生成能力上限?如果超过,拆。如果不确定,先试一次再决定拆不拆。


第二层:锚点层 — 视觉一致性的基础设施

这是整个工作流中最关键的一层。没有锚点体系,你的角色会在第10个镜头上变成另一个人。

2.1 角色锚点

每个主要角色锁定一张锚点图(Anchor Image)——经过严格QA的高质量keyframe,后续所有涉及该角色的生成都以锚点图为视觉基准。

《静默纪元·守护》的角色锚点:

锚点ID角色关键视觉特征
C1陈默深色工装、32岁→白发苍老、手抖
C2林晓浅色衣物、及肩黑发、30岁
C3陈小雨粉色小兔睡衣、圆脸、2岁→12岁
C4嘟嘟银灰虎斑美短、右后爪白斑、左耳旧伤

每个锚点除了图,还有一个锚点卡:记录该角色的视觉特征、服装规范、禁止事项(比如"陈默不穿军装/制服")。

2.2 场景锚点

关键场景也需要锚点图。SC02(屏障内部客厅)、SC05(废墟城市远景)、SC07(终幕废墟)都有各自的场景锚点。场景锚点的作用是:确保同一场景在不同镜头中看起来是同一个地方。

2.3 物件锚点

反复出现的关键物件也建了锚点图:屏障球体、能量回路、担架、陈默的记录本等。物件锚点不需要和角色锚点一样的严格度,但能大幅减少"这个道具上一镜和下一镜长得不一样"的问题。

2.4 锚点不是一次性的

锚点体系需要持续维护。新镜头如果产生了比现有锚点更好的视觉参考,需要判断:更新锚点 or 保留现有锚点?更新会影响已完成的、基于旧锚点的镜头吗?

原则:一旦锚点被用于I2V生成,就锁定。新发现更好的版本可以替换锚点,但要回溯检查已生成内容是否兼容。


第三层:生产层 — 从首帧到成片

3.1 首帧生成

用GPT-Image-2生成静态keyframe。当前策略:

  • 基于锚点+分镜描述生成:prompt包含角色锚点描述、场景锚点描述、镜头运动方向、色调和情绪
  • 候选上限:简单PU 2个候选、普通3个、复杂4个、英雄/瓶颈最多5个
  • 超过上限仍不通过:不继续抽卡,改prompt、拆PU、降目标或换表达方式

3.2 Preflight Gate(I2V前的最后检查)

每个首帧在进入I2V生成前,必须通过4项检查(每项3分,12分制,10分以上通过):

  1. 锚点满足度:角色/场景/物件是否与锚点一致
  2. 空间关系稳定性:主体间的空间位置、比例、遮挡关系是否合理
  3. 运动可行性:I2V模型能否基于这张图生成合理运动(静态构图比复杂动作更安全)
  4. 高风险崩坏点:手、脸、肢体、透视、大场景细节——是否有可能在I2V中崩坏

Preflight Gate的ROI:如果在首帧阶段(¥0.08-0.16/次)识别出30%的问题方向,避免它们进入I2V(¥2-5/秒),单轮节省约¥60-100。

3.3 I2V生成

使用HappyHorse I2V 720P。关键参数和约束:

  • 时长根据分镜需求设定(5-8秒居多,不是统一默认值)
  • 运动提示词关注"可行"而非"炫酷"(缓慢推拉比快速摇镜更稳定)
  • I2V输出后做contact sheet(抽帧对比),检查帧间一致性

3.4 QA标准

单镜纳入剪辑的最低标准(不是"好不好看",是"能不能用"):

  • 无明显形变/扭曲,角色身份可辨认
  • 无色彩严重偏色
  • I2V画面无跳帧或剧烈闪烁
  • 叙事意图是否清楚(不一定是"完美",但观众能看懂这个镜头要表达什么)
  • 是否能证明工作流的价值(不追求"像电影",追求"客户看完知道你能把文本变成视觉方案")

不达标的镜头跳过不停滞整体节奏。


第四层:账本层 — 让成本可见

4.1 成本追踪

追踪项记录内容
cost_logAPI调用费用(每次调用的token消耗和费用)
token_logAgent会话token使用量
expense_log工具订阅费用(Qoder ¥300/mo、MiMo ¥99/mo、MiniMax ¥99/mo)
attempt ledger每个PU的候选数、失败类型、决策、下游返工

4.2 四个核心指标

  1. cost_per_accepted_keyframe:平均每张通过QA的keyframe花了多少钱
  2. cost_per_accepted_second:平均每秒通过QA的I2V视频花了多少钱(含返工)
  3. late_failure_rate:到I2V或合成阶段才发现失败的比例
  4. avoidable_i2v_burn:本该在首帧阶段挡掉、但实际烧到I2V的费用

这四个指标的目的不是做会计,而是让你知道哪个环节在吞预算


工具链与切换逻辑

完整链路涉及6套工具:

工具定位使用场景
GPT-Image-2图像生成首帧、变体、修复
HappyHorse I2V视频生成首帧转动态视频
Claude Code + Opus 4.7主Agent策略、设计、审查、长会话
Codex + GPT-5.5外部视角市场研究、成本分析、独立判断
Qwen3-TTS / MiMo语音合成旁白配音
FFmpeg合成视频拼接、音轨同步

切换原则:每次换工具要回答——是额度问题、质量问题、稳定性问题,还是流程问题?如果是流程问题,换工具只会换一种失败方式。


这套工作流的可复制性

这套流程不是《静默纪元·守护》专用。任何"从文本到AI视频"的项目都可以复用:

  • 文本层:任何有小说/剧本/IP文本的项目
  • 锚点层:任何需要角色视觉一致性的项目
  • 生产层:任何使用I2V模型的项目
  • 账本层:任何想控制成本的AIGC项目

如果你在做类似的项目,建议第一步不是研究提示词技巧,而是先建角色锚点和成本账本。

查看可复用资源与工具 →

AIGC workflow notes from a real IP production.