Seedance 2.0「纯文字出片」完全指南：用五定法搞定零素材创作（万字收藏版）

原创云上心辰心辰AI写作笔记

2026年3月20日 22:44

=2026年第21篇文章=

-全文1万字-

本文配套有纯文字出片的【关键词速查库】，可用于写提示词时按维度查词，实操方法，直接复制、组合、修改即可。因为内容较多，有需要的可文末扫我领取，暗号：速查库。

诸位好，我是心辰。

虽说Seedance2.0热度已过，不过总觉得整个系列还是缺少了一块拼图。

这个拼图，就是：纯文字提示词创作。

真人脸限制摆在那里，如果不是很依赖于特定人脸，搞纯文字提示词起码能少一个可能的卡审核手段。

还有关于物品类的，用素材参考没那么多弯弯绕绕，所以本期主要是以人物为主题曲展开。

一段纯文字提示词，通常由五个维度组成：“人，景，调，音，拍”。

今天，就针对这五个维度，确立一套纯文字创作逻辑：

五定系统。

第一章：五定系统总览——纯文字出片的底层逻辑

五定系统一览

定人 —— 角色长什么样？（外貌、服装、体型、气质）
定景 —— 故事发生在哪里？（环境、时代、天气、光线）
定调 —— 整体什么风格？（片型、画面质感、情绪基调）
定音 —— 声音怎么处理？（对白、音效、配乐、语种）
定拍 —— 怎么动、怎么拍？（角色动作、镜头运动、节奏）

五个维度全部用文字覆盖，就构成了一段完整的纯文字提示词。

但“五定”只回答了“出现什么”

当然，还有一个维度可以考虑进来：时间。

你用五定把角色、场景、风格、声音、动作全都写清楚了，模型确实知道该生成什么内容。

但它不知道——你希望这些内容在第几秒出现。

没有时间信息的提示词，模型会自行分配时间：

描写写得多的部分可能占掉大半，写得少的一闪而过。

你以为的“重点时刻”可能只分到了1秒，你随手一笔带过的铺垫反而占了8秒。

一句话：五定解决“拍什么”，时间解决“什么时候拍”。

三种时间表达方式

在展开五定之前，先建议一个认知，了解好纯文字提示词里控制时间的三种方式，后面的章节会反复用到：

方式一：精确时间锚点（控制力最强）

0-5秒：描写内容
5-10秒：描写内容
10-15秒：描写内容

适合广告、有明确转折点的剧情、需要配合音乐卡点的内容。

方式二：画面编号（中等控制）

画面1：描写内容
画面2：描写内容
画面3：描写内容

你知道内容的先后顺序，但不确定每段该多长，就让模型根据描写量自行分配。

方式三：动作流连接词（弱控制 / 自然叙事）

角色做了A，然后做了B，此时发生了C，最后画面停在D。

用“然后”“此时”“突然”“缓缓”等连接词串联动作，模型会根据连接词的“快慢暗示”来分配时间

三种方式不分高低，只分场景。

后面每一章讲完五定的对应维度后，都会展示“加入时间控制后的写法”，你自然就知道该怎么选了。

第二章：定人——用文字精确描述角色

为什么“定人”是第一步

在有参考图的情况下，上传一张角色图片，模型一看就知道这个人长什么样。

但在纯文字模式下，如果你只写“一个女孩”，模型会随机生成一个。

“定人”要解决的就是这个问题：用文字把角色的外貌写到足够精准，让模型每次生成的角色至少“像同一个人”。

角色描写的四层结构

纯文字的角色描写可以拆成四层，从粗到细依次为：

第一层：身份标签

最快的定人方式，一两个词就能让模型调出一个“类型化”的形象：

赛博朋克深海潜员 / 荒漠吉普赛占卜师 / 废土机甲维修师 / 极地科考员 / 蒸汽朋克发明家

身份标签的本质是在调用模型训练数据中已有的形象模板。

如果你的角色刚好符合某种典型形象，一个身份标签就够了。

第二层：外貌特征

当身份标签不够精确，或者你的角色不属于任何典型类型时，需要补充外貌特征：

短发的中年男人 / 扎着双马尾的少女 / 络腮胡的壮汉 / 白发苍苍的老太太

外貌特征的写法原则是：写模型能画面化的特征。

“性格开朗”不是外貌特征，模型画不出来。“圆脸、酒窝、齐刘海”才是。

第三层：服装描写

服装是区分角色最有效的视觉手段，也是纯文字定人中信息密度最高的一层：

穿黑色长风衣的 / 上身白T恤、下身破洞牛仔裤 / 一袭红色汉服、腰间系着金色腰带 / 全身深蓝色西装三件套

服装描写越具体，角色的形象越稳定。

特别是颜色：颜色是最容易被模型精确执行的视觉指令。

第四层：气质/状态修饰

这一层不是定义“长什么样”，而是定义“看起来什么感觉”：

气质冷峻的 / 神情疲惫的 / 眼神犀利的 / 一脸稚气的 / 额角渗出细密汗珠的

气质修饰会影响模型生成角色时的表情、姿态和整体氛围。

它不改变五官，但改变“感觉”。

参考公式

把四层组合起来，一个完整的纯文字角色定义就是：

[身份标签] + [外貌特征] + [服装描写] + [气质/状态修饰]

示例：

一个穿着深灰色机车皮衣的短发年轻女性，皮肤偏冷白，眼神凌厉，嘴角微微上扬带着一丝挑衅。

一位聚精会神的机械钟表匠，戴着单口放大镜，双手微微颤抖，汗珠从鬓角滑落到精密的齿轮零件上。

一个穿黑色西装三件套的瘦高男人，头发梳得一丝不苟，单手插兜，表情冷漠得像是欠了他钱。

四层不需要每次都写满。

如果场景里角色只是一闪而过的路人，一个身份标签就够了。

只有主角级的角色，才需要写到三到四层。

多角色场景的定人技巧

纯文字做多人场景时，最大的问题是模型分不清“谁是谁”。

解决方法：给每个角色一个独特的视觉锚点。

左侧穿红衣的女孩 / 右边戴帽子的男人 / 中间那个背吉他的少年

用“位置 + 服装/配饰”的组合来区分角色。

颜色差异越大，模型越不容易搞混。

定人 × 时间：角色何时出场、何时变化

很多人写角色描写，只在提示词开头定义一次就完事了。

但如果你的视频里角色有状态变化，比如一开始面无表情、后来笑了；一开始穿大衣、后来脱掉了——那就需要用时间来精确控制角色的“变身节点”。

基础写法——角色在开头一次性定义，全程不变：

一个穿白色连衣裙的长发女孩站在海边……

进阶写法——用时间锚点控制角色的状态变化：

0-5秒：一个穿黑色西装的男人坐在办公桌前，表情严肃，手指快速敲着键盘。

5-10秒：男人停下来，揉了揉太阳穴，神情疲惫，松开了领带的第一颗扣子。

10-15秒：男人突然看到手机屏幕上的消息，嘴角忍不住上扬，整个人的气质从紧绷变得柔和。

同一个角色，三段时间里的气质状态完全不同——严肃→疲惫→柔和。

时间锚点让这种渐变有了精确的节奏，而不是让模型自己猜“什么时候表情该变”。

多角色出场时序：控制“谁先出现、谁后出现”。

0-3秒：空旷的教室里，只有一个戴眼镜的男生坐在最后一排写作业。

3-7秒：教室门被推开，一个扎马尾的女生探头进来，手里拿着两杯奶茶。

7-10秒：女生走到男生旁边坐下，把一杯奶茶放在他桌上，男生抬头看了她一眼，没说话但嘴角微微翘起来。

角色的出场顺序被精确安排在了不同的时间段，先建立“独处的男生”，再引入“带奶茶的女生”，最后展示两人互动。

如果不写时间标注，模型很可能让两个人同时出现在画面里，“独处→被打断”的情绪层次就没了。

第三章：定景——用文字构建视频的空间

定景的核心：让模型“看见”你脑子里的场景

纯文字模式下，场景完全靠文字描写来建立。

写得好，模型生成的场景跟你想的八九不离十；写得模糊，模型就自由发挥，出来一个“差不多”的环境。

场景描写的三层结构

第一层：场景类型——“这是哪”

最基础的场景信息，一个短语就能确定空间的基本属性：

街头 / 酒吧 / 火车站台 / 竹林空地 / 写字楼走廊 / 咖啡馆吧台 / 海边沙滩

场景类型是模型理解空间的“起点”。

写了“酒吧”，模型就知道要有吧台、灯光偏暗、可能有酒瓶和杯子。

第二层：时代/风格——“这是什么样的地方”

同样是“街道”，加上不同的时代/风格修饰，画面完全不同：

写法	模型理解的画面
街道	默认的现代城市街道
赛博深海下的霓虹空间站	巨大的圆顶玻璃、漂浮的水母灯、幽蓝的深海背景
赛博朋克风格的街道	霓虹灯、全息广告、潮湿地面反射
80年代的香港旺角街头	密集招牌、霓虹、拥挤的人潮
日式动漫风格的樱花小径	粉色花瓣、干净线条、放学路上的氛围

时代/风格修饰是性价比最高的场景描写手段。

只需要加几个修饰词，整个画面的质感就从“普通”变成了“有味道”。

第三层：环境细节——“空间里有什么”

这一层决定了场景是“空洞的”还是“有生活感的”：

墙角堆着几个纸箱 / 窗台上放着一盆快枯掉的绿萝 / 桌上散着几本翻开的旧书和一杯没喝完的咖啡 / 远处停着一辆轮胎泄了气的自行车

环境细节的作用不是“让模型知道这是哪”（第一层已经解决了），而是让场景活起来。

光线和天气：场景的“情绪开关”

同一个场景，换一种光线和天气，情绪完全不同：

场景	光线/天气	产生的情绪
火车站台	清晨薄雾，柔和的晨光	离别、不舍、温柔
火车站台	暴雨、昏暗的灯光	焦急、紧张、压迫
火车站台	黄昏，夕阳洒在铁轨上	怅然、回忆、怀旧
街头	午后阳光，光斑透过树叶	轻快、日常、温暖
街头	深夜，路灯投下长长的影子	孤独、悬疑、危险

光线和天气描写是纯文字创作中最容易被忽视但最有用的工具。

如果不特别指定，模型会默认使用一种“中性”的均匀光线。

画面干净但没有情绪，加上光线描写后，整个画面的氛围就立起来了。

参考公式

[场景类型] + [时代/风格修饰] + [环境细节] + [光线/天气]

示例：

一间昏暗的老式爵士酒吧，墙上挂着几张发黄的黑白照片，吧台上摆着半瓶没开封的威士忌，角落里的老式唱片机正在转动，暖黄色的灯光在烟雾中弥散。

暴雨中的东京涩谷十字路口，满街的霓虹招牌在湿漉漉的地面上投下五颜六色的倒影，行人撑着透明雨伞匆匆穿过斑马线。

定景 × 时间：场景何时切换、环境如何演变

场景和时间的关系，体现在两个层面：场景跳转和环境渐变。

场景跳转——用时间锚点控制“什么时候换地方”：

如果你的视频需要在不同场景之间切换，时间标注能精确控制每个场景停留多久：

0-5秒：清晨的卧室，阳光从窗帘缝里透进来，女孩还赖在被窝里。

5-10秒：镜头切到厨房，煎蛋在平底锅上滋滋作响，一双手把煎蛋铲进盘子里。

10-15秒：画面回到卧室，女孩被煎蛋的香味唤醒，揉着眼睛坐起来，鼻子使劲嗅了嗅空气。

三个时间段，两次场景切换（卧室→厨房→卧室），每个场景的时长都被精确分配。

如果不标注时间，模型可能把“卧室赖床”拍了10秒，厨房和最后的反应只剩5秒塞在一起。

环境渐变——不换场景，但场景本身在变化：

更高级的用法：场景不跳转，但环境细节随时间推移发生变化。

这是营造“时间流逝感”的绝佳技巧：

0-5秒：午后的咖啡馆窗边，阳光透过玻璃照在桌面上，咖啡杯里的热气还在升腾。

5-10秒：窗外的光线渐渐变暖，从正午的白光转为黄昏的橘色，咖啡杯已经空了，杯底留着一圈咖啡渍。

10-15秒：窗外已经完全是夜色，街灯亮起，桌上的咖啡杯旁多了一本翻到中间的书和一副摘下的眼镜。

同一个座位，15秒里经历了午后→黄昏→入夜。

场景没有切换，但环境细节的变化让观众感受到了时间的流逝。

这种写法在治愈系视频和品牌调性片里特别有效。

第四章：定调——用文字控制画面风格和质感

定调的本质：告诉模型“这段视频应该像什么”

同样的角色、同样的场景、同样的动作，换一种“调性”，出来的结果天差地别。

“定调”就是用文字精确控制视频的整体风格、画面质感和情绪基调。

定调的三个层次

第一层：片型定调——“这是什么类型的片子”

最快速的定调方式，一个短语就能让模型切换到对应的视觉模板：

谍战片风格 / 科幻电影质感 / 日式动漫风格 / 纪录片风格 / 恐怖片氛围 / 搞笑喜剧 / 武侠片

片型定调的威力在于：

一个词就能同时改变色调、光影、构图、节奏。

写了“谍战片风格”，模型自动就会倾向于冷色调、低机位、紧凑剪辑、压迫感光影。

写了“黑白水墨风格”，整个画面的渲染方式都会切换。这

第二层：画面质感——“画面看起来什么感觉”

在片型基础上进一步精确画面的视觉特征：

电影级画面 / 真实胶片颗粒感 / 黑白水墨风格 / 低饱和度冷调 / 高对比度暗调 / 柔光朦胧感 / 赛博朋克霓虹质感

可以叠加使用，而且可以叠加得非常具体。

Seedance 2.0对技术参数有精确的响应能力：

9:16竖屏电影质感，60fps高帧率丝滑动态，高动态范围(HDR)的光影层级

这段描写同时指定了画质级别（电影级写实）、画面比例（2.35:1宽银幕）、帧率质感（24fps）和整体观感（细腻）。

第三层：情绪基调——“观众看完应该是什么感受”

情绪关键词	模型倾向的视觉表现
诙谐幽默	明快色调、夸张动作、轻松配乐
紧张压迫	暗调、快速剪切、低频音效
温馨治愈	暖色、柔光、缓慢节奏
史诗恢宏	大全景、低角度仰拍、厚重配乐
孤独萧索	冷色、大面积留白、安静

情绪基调和片型定调可以叠加。

比如“温馨治愈的纪录片风格”，模型会把纪录片的真实感和治愈系的柔暖色调融合在一起。

“诙谐幽默”的调性还能让角色的表情和肢体语言自带喜感。

定调 × 时间：风格和情绪如何随时间演变

定调不是只能在开头“一锤定音”。

高级的纯文字创作，会让调性随时间推移发生变化：这就是所谓的“情绪弧线”。

从静到动的节奏曲线：

谍战片风格，冷色调，画面紧张压迫。

0-4秒：深夜的老旧码头，浓雾弥漫，远处传来低沉的船笛声。一个穿黑色长风衣的男人站在集装箱后面，手里攥着一份文件。镜头从远处缓慢推近他的背影。

4-8秒：对面走来另一个人，戴着帽子看不清脸。两人相对而立。风衣男把文件递过去，低声说“东西在这里，后面的事跟我没关系了”。镜头切到手部特写，文件在两只手之间传递。

8-12秒：远处突然亮起车灯，刺目的白光扫过码头。风衣男猛地回头，瞳孔收缩，脸上掠过一丝紧张。帽子男迅速将文件塞进大衣内袋，转身消失在浓雾中。金属器具碰撞的声响从暗处传来。

12-15秒：镜头拉远至全景，码头重新陷入沉寂，只剩风衣男一人站在原地，浓雾吞没了一切。画面缓缓暗下去，远处的船笛声再次响起。

注意这段提示词的情绪曲线：静（0-4s）→ 紧绷（4-8s）→ 爆发（8-12s）→ 回归沉寂（12-15s）。

整体调性是“谍战片冷色调”，但紧张程度在第8秒到达峰值，然后快速回落。

时间锚点让情绪的“加速→刹车”有了精确的时间坐标。

情绪转折——从暖到冷的反差设计：

0-7秒：温暖的午后，父亲和女儿在火车站台上互相整理衣领，嘴上说着“路上饿了吃”，女儿笑着接过塞得鼓鼓的帆布袋。画面暖色调，柔光。

7-12秒：列车进站的广播声响起，女儿转身走向车厢。父亲抬起手想挥一下但又放下了，嘴唇微微颤动。画面色温骤降，变为冷灰调。

12-15秒：车窗里女儿的脸一闪而过，父亲站在原地没动，镜头缓缓拉远，他的身影在薄雾中越来越小。

转折点在第7秒：情绪从温暖的互动突然切到离别的压迫感，色调的冷暖变化被安排在了“广播声响起”这个外部事件上。

好的情绪转折，总是有一个“触发点”，用时间标注，你可以精确控制这个触发点出现在第几秒。

15秒剧情的黄金结构：

转折点放在60%-80%的位置（即第9-12秒），前面铺垫，后面消化。

转折太早（第3秒），后面留白太多；转折太晚（第14秒），观众来不及感受。

第五章：定音——用文字控制声音的全部要素

声音是最被低估的纯文字控制维度

大部分人写提示词只想着画面，忘了Seedance 2.0是自带声音生成能力的。

对白、音效、配乐，这三样东西全部可以用纯文字控制，不需要上传任何音频素材。

而且，声音控制本来就不依赖参考图。

这意味着不管素材审核多严格，声音维度的能力完全不受影响。

对白控制：直接把台词写出来

Seedance 2.0支持在提示词里直接写角色台词，模型会生成对应的配音：

男人叹了口气说“你就不能消停一会儿吗”

女孩扑到他怀里大声喊“你终于回来了！”

对白写作的四个技巧：

加上情绪动作：不要只写台词，要写“怎么说”。咬牙切齿地说 vs 轻声细语地说 vs 哭着喊，模型会配合对应的语气和表情
指定语言和口音：用四川话说、用德语说、用带广东口音的普通话说、用俄语说——模型支持多语种和方言配音。
多角色对话要标清身份：

猫（舔毛翻眼）：“你今天又拆沙发了？” 狗（歪头晃尾巴）：“那又不是我干的。”

对白的情感强度要写具体：

不要只写“他说了一句话”，要写清楚情感烈度。

“低声说”和“嘶吼”差了十个档，模型的声音输出会根据这些修饰词精确调整音量、语速和情绪激烈程度

音效控制：描述你想听到的环境声

Seedance 2.0会根据你的文字描写自动生成对应的音效：

闹钟刺耳地响起

远处传来玻璃碰撞的声音

脚步声由远及近，最后在门前停下

雷声从远处滚过来，雨点开始噼里啪啦地打在窗户上

走路声，人群声，汽车声

音效描写不需要多复杂，关键是写具体的声源和声音特征。

“有声音”太模糊，“金属器具碰撞的清脆声响”就很精确。

“背景音效为走路声，人群声，汽车声”这种并列罗列的写法也完全有效，模型会同时生成多层环境声。

配乐控制：用关键词定义背景音乐

恢宏大气的管弦乐配乐

电吉他的激昂摇滚乐

轻快的爵士钢琴背景音

紧张的低频电子音效

安静，只有环境白噪音

配乐描写的原则：

指定情绪 + 乐器/风格。

“恢宏大气”是情绪，“管弦乐”是风格，两个叠在一起，模型就知道你要什么了。

还有一种更精细的写法，就是指定配乐的叙事功能：

背景拉美音乐响起——人群中有人开始踏起步子，孩子们跟着节奏拍手

这里配乐不只是“背景装饰”，而是叙事的一部分。

音乐响起触发了角色的舞蹈行为。

这种“音乐驱动剧情”的写法在官方手册的家族舞蹈案例中被展示过，是非常高级的声画联动技巧。

旁白与画外音：不在画面里的声音

画面最下方出现艺术感字幕和旁白：“宜口可乐，不可不尝！”

画外音响起“每一天，都值得被认真对待”

用科普风格和音色，将图片中的内容演绎出来

旁白/画外音是广告和纪录片的核心声音工具。

注意Seedance 2.0还支持指定音色风格。

“科普风格和音色”就是在告诉模型：旁白要像科教频道的解说员，语速适中、吐字清晰、权威感强。

定音 × 时间：声音如何在时间轴上精确排布

声音和时间是天生的搭档，因为声音本身就是时间性的。

一段音乐是从哪秒开始的？一句台词是在什么时候说的？一个音效在画面的哪个瞬间响起？

这些问题，只有时间轴能精确回答。

对白的时间排布——控制“谁在第几秒说什么”：

0-3秒：飞船驾驶舱红光闪烁，刺耳的警报器呜叫不停，画面剧烈抖动。

3-10秒：镜头快速切到副驾驶面部特写，他惊恐地看着仪表盘，对着无线电急促地喊道：“引擎熄火了！请求立即迫降！”

10-12秒：主驾驶咬紧牙关，双手死死握住操纵杆，大声回应：“稳住！看我的！”

12-15秒：飞船冲出云层，下方出现荒原，画面剧烈震荡，主驾驶喘着粗气说：“准备迎接冲击！”

这是模拟紧急情境下的写法：

警报声在0秒响起（音效），呼救的互动占据3-10秒（对白+动作），台词“准备迎接冲击”被精确放在了12-15秒收尾。

每个声音元素都有自己的“出场时间”。

音效的声画同步——让声音和画面在同一秒爆发：

0-2秒：俯拍镜头，两架小型侦察机在云层中追逐，画面安静得只听到引擎的低鸣。

2-4秒：近景快切，后方飞机发射电磁脉冲，蓝紫色的电弧瞬间击中前方机翼，伴随耀眼的强光和兹兹的电流声。

4-6秒：机翼受损冒出火花，碎片四溅，伴随金属撕裂的清脆声响。

6-8秒：低角度仰拍定格，胜者收剑入鞘，“嚓”的一声金属声，败者单膝跪地，漫天竹叶缓缓回落。

每一段的声音和画面是同步设计的：拔剑的画面配金属声，竹子断裂的画面配清脆声。

这种精确的声画同步，只有在时间轴模式下才做得到。

配乐的情绪渐变——让音乐和画面一起“呼吸”：

0-5秒：轻柔的钢琴声开始，画面是雨天的窗台。

5-10秒：钢琴声中加入大提琴的低音和弦，画面里一只手缓缓伸入放下一杯热茶。

10-15秒：音乐渐弱，最后只剩下雨声和远处若有似无的钢琴余韵。

配乐从单一乐器（钢琴）逐渐丰富（加入大提琴），最后又退回到环境声（雨声）。

音乐的“加法→减法”和画面的“静→微动→更静”完全同步。

这种写法的精髓在于：你不是在“描述配乐”，你是在用配乐的变化来引导画面的情绪走向。

第六章：定拍——用文字控制角色动作和镜头运动

定拍 = 角色怎么动 + 镜头怎么拍

“定拍”覆盖两件事：

一是角色的行为、动作、表情变化，二是摄像机的运动方式。

这两样合在一起，就构成了视频的“动态信息”。

角色动作描写：核心技巧是“微动作链”

纯文字控制角色动作的精髓在于：不要写抽象动作，要写具体的“微动作序列”。

抽象写法（效果差）	微动作链写法（效果好）
女孩很伤心	女孩低下头，肩膀微微颤抖，一滴泪滑过脸颊，她用手背快速擦掉
男人做饭	男人卷起袖子，从砧板上抓起一把切好的葱花撒进锅里，油花溅起
角色害怕	角色猛地后退一步，瞳孔放大，双手不自觉地攥紧衣角，呼吸明显加快
老人走路	老人拄着拐杖，每一步都走得很慢，走了几步停下来喘口气，然后继续

“微动作链”的本质就是：

把一个笼统的行为拆解成模型能逐帧执行的具体肢体动作。

举个例子：

魔术师在镜头前露出神秘微笑，眼睛直视观众，接着他快速翻转右手，原本空无一物的手心突然弹出一张燃烧的扑克牌，然后他轻轻一吹，火焰熄灭，卡牌变成了飞舞的蝴蝶。

“神秘微笑”是抽象的，但“直视观众”把它变成了具体动作。

“变戏法”是笼统的，但“翻转右手→弹出扑克牌→一吹→变成蝴蝶”把它拆成了四步微动作。

这就是微动作链的威力。

镜头运动描写：用术语代替参考视频

没有参考视频的情况下，镜头运动完全靠文字术语来驱动。

这里推荐一些常用的镜头指令：

基础运镜：

镜头缓慢推近 — 从远到近，聚焦主体
镜头拉远至全景 — 从近到远，展示环境
镜头左摇/右摇 — 水平扫视
跟随镜头 — 摄像机跟着角色移动
固定镜头 — 摄像机不动

进阶运镜：

环绕镜头 — 围绕角色旋转拍摄
一镜到底 — 全程不切镜头
俯拍/仰拍 — 上帝视角/英雄视角
第一人称主观视角 — 观众就是角色本人
希区柯克变焦 — 主体不变但背景急速推近，产生眩晕感
鱼眼镜头 — 画面边缘弯曲变形，视觉冲击力极强

景别控制：

全景 — 展示整个场景和角色全身
中景 — 角色膝盖以上
近景/特写 — 面部或物体细节
微距 — 极致细节，如眼睛瞳孔、指纹纹路、皮面纹理

多运镜组合：Seedance 2.0是支持在一段提示词中串联多种运镜。

镜头跟随跑酷者在脚手架上狂奔，在狭窄的横梁上翻滚，镜头从背面的跟随视角通过低视角环绕到跑酷者正面；镜头再右摇90度拍摄下方的万丈深渊，急停后右摇180度，怼脸拍摄跑酷者：他大口喘气，眼神坚定，镜头跟随他的视角环视四周。

跟随→低视角环绕→右摇→急停→右摇→怼脸——六种运镜在一段描写中无缝串联。

这种写法对Seedance 2.0来说完全可以执行，前提是每种运镜之间的衔接要自然。

定拍 × 时间：动作和镜头如何在时间轴上精确编排

动作和镜头是五定中和时间关系最紧密的维度，因为动作本身就是随时间展开的。

微动作链 + 时间锚点 = 逐秒导演术：

0-3秒：镜头从身后跟随女孩穿过拥挤的夜市。

3-6秒：她在一个烤串摊前停下，伸手指了指架子上的烤玉米，掏出手机扫码付款。

6-10秒：接过玉米咬了一口，被烫得直吸气，然后笑着继续往前走。

10-15秒：镜头绕到正面，半身特写，她冲镜头竖了个大拇指。

每段时间里的动作数量是经过算计的：

0-3秒只有一个动作（穿过夜市），3-6秒有三个快速动作（停下→指→扫码），6-10秒有三个带节奏的动作（咬→吸气→笑着走），10-15秒只有一个收尾动作（竖拇指）。

这就引出一个关键概念——时间密度。

时间密度：每秒钟该写多少内容

时间密度 = 单位时间内的提示词信息量。

密度控制是写好时间轴的核心技能之一。

三个密度档位：

密度档位	每秒约几字描写	适用场景	特征
低密度	5-8字/秒	治愈系、氛围向、品牌调性片	大量静态细节和光影变化，几乎无角色行为
中密度	8-15字/秒	标准叙事、生活情景、产品展示	有角色行为和镜头运动，节奏适中
高密度	15-25字/秒	广告快切、动作打斗、MV卡点	密集动作和场景切换，追求视觉冲击力

低密度示例：

0-5秒：晨光穿过半透明的窗帘，在老旧的书桌上投下温柔的光斑，一杯刚泡好的茶冒着缭绕的白气。

5秒，约40字，只有光影和白气在微动。

这种“空”本身就是氛围感的来源。

中密度示例：

3-8秒：镜头跟随女孩穿过拥挤的集市，她的手拂过摊位上的水果，挑了一个苹果放进帆布袋，回头朝身后的同伴笑了笑。

5秒，约50字，有镜头运动（跟随）、有角色行为（穿过、拂过、挑、放、回头笑）。

高密度示例：

7-12秒：快速切换四个佩戴场景——丝带系在风衣领口的通勤造型、缠绕在马尾上的甜美风格、扣在手袋链条上的简约搭配、别在西装胸口的利落质感。

5秒里塞了4次场景切换，每个场景十几个字一笔带过。这是典型的广告展示密度。

密度与段数的匹配：

视频总时长	低密度（慢节奏）	中密度（标准叙事）	高密度（快节奏）
4-6秒	不分段或2段	2-3段	3-4段
8-10秒	2-3段	3-4段	4-5段
15秒	3段	4-5段	5-6段

三个密度失控的警示信号：

单段描写超过80字但只有2-3秒 → 信息过载，删减到50字以内
总提示词超过400字但没有时间段划分 → 模型会把所有内容当“一坨”理解，大概率前面堆积后面空白
相邻两段描写字数差异超过3倍 → 模型会困惑，重新平衡各段的描写量

一镜到底：什么时候不该用时间锚点

一镜到底是Seedance 2.0的一个强项能力。

但这种场景恰恰不适合用精确时间锚点，因为一旦你把连续动作切成时间段，画面就会有“断裂感”，破坏了一镜到底的连贯性。

一镜到底场景应该用动作流连接词来写：

废土电影风格，镜头正面跟拍一只流浪的小狗在熙熙攘攘的废料市场中穿行，镜头全景跟随，不断有巨大的机械腿遮挡小狗，走到一个集装箱拐角处，固定镜头小狗转弯消失，一个戴着防毒面罩的拾荒者在暗处躲着偷看它。镜头往前摇向小狗，它钻进了一个生锈的飞船座舱里。全程不要切镜头，一镜到底。

没有时间标注，所有动作用自然语言串联——穿行→遮挡→拐角→消失→拾荒者→座舱。

最后一句“全程不要切镜头，一镜到底”是关键指令，明确告诉模型不要切断画面连续性。

选择原则：如果你的视频是“连续运动的一条线”，用动作流；如果是“多个独立段落的拼接”，用时间锚点。

第七章：时间段落间的衔接技巧

五定组合公式

[定人] + [定景] + [定调] + [定音] + [定拍]

并不是每次都必须写满五定，可根据内容需要，灵活取舍：

场景类型	建议侧重的维度	可以省略或弱化的维度
产品广告	定景、定调、定拍	定人（可能没有角色）
剧情短片	定人、定拍、定音	定调（可以靠动作和对白暗示）
氛围/治愈系	定景、定调	定人和定拍（动作极少）
搞笑对话	定人、定音、定拍	定景（场景不重要）
打斗/动作	定人、定拍、定调	定音（动作本身有声音）