Seedance 2.0「纯文字出片」完全指南:用五定法搞定零素材创作(万字收藏版)
=2026年第21篇文章=
-全文1万字-
本文配套有纯文字出片的【关键词速查库】,可用于写提示词时按维度查词,实操方法,直接复制、组合、修改即可。因为内容较多,有需要的可文末扫我领取,暗号:速查库。
诸位好,我是心辰。
虽说Seedance2.0热度已过,不过总觉得整个系列还是缺少了一块拼图。
这个拼图,就是:纯文字提示词创作。
真人脸限制摆在那里,如果不是很依赖于特定人脸,搞纯文字提示词起码能少一个可能的卡审核手段。
还有关于物品类的,用素材参考没那么多弯弯绕绕,所以本期主要是以人物为主题曲展开。
一段纯文字提示词,通常由五个维度组成:“人,景,调,音,拍”。
今天,就针对这五个维度,确立一套纯文字创作逻辑:
五定系统。
第一章:五定系统总览——纯文字出片的底层逻辑
五定系统一览
定人 —— 角色长什么样?(外貌、服装、体型、气质)
定景 —— 故事发生在哪里?(环境、时代、天气、光线)
定调 —— 整体什么风格?(片型、画面质感、情绪基调)
定音 —— 声音怎么处理?(对白、音效、配乐、语种)
定拍 —— 怎么动、怎么拍?(角色动作、镜头运动、节奏)
五个维度全部用文字覆盖,就构成了一段完整的纯文字提示词。
但“五定”只回答了“出现什么”
当然,还有一个维度可以考虑进来:时间。
你用五定把角色、场景、风格、声音、动作全都写清楚了,模型确实知道该生成什么内容。
但它不知道——你希望这些内容在第几秒出现。
没有时间信息的提示词,模型会自行分配时间:
描写写得多的部分可能占掉大半,写得少的一闪而过。
你以为的“重点时刻”可能只分到了1秒,你随手一笔带过的铺垫反而占了8秒。
一句话:五定解决“拍什么”,时间解决“什么时候拍”。
三种时间表达方式
在展开五定之前,先建议一个认知,了解好纯文字提示词里控制时间的三种方式,后面的章节会反复用到:
方式一:精确时间锚点(控制力最强)
0-5秒:描写内容
5-10秒:描写内容
10-15秒:描写内容
适合广告、有明确转折点的剧情、需要配合音乐卡点的内容。
方式二:画面编号(中等控制)
画面1:描写内容
画面2:描写内容
画面3:描写内容
你知道内容的先后顺序,但不确定每段该多长,就让模型根据描写量自行分配。
方式三:动作流连接词(弱控制 / 自然叙事)
角色做了A,然后做了B,此时发生了C,最后画面停在D。
用“然后”“此时”“突然”“缓缓”等连接词串联动作,模型会根据连接词的“快慢暗示”来分配时间
三种方式不分高低,只分场景。
后面每一章讲完五定的对应维度后,都会展示“加入时间控制后的写法”,你自然就知道该怎么选了。
第二章:定人——用文字精确描述角色
为什么“定人”是第一步
在有参考图的情况下,上传一张角色图片,模型一看就知道这个人长什么样。
但在纯文字模式下,如果你只写“一个女孩”,模型会随机生成一个。
“定人”要解决的就是这个问题:用文字把角色的外貌写到足够精准,让模型每次生成的角色至少“像同一个人”。
角色描写的四层结构
纯文字的角色描写可以拆成四层,从粗到细依次为:
第一层:身份标签
最快的定人方式,一两个词就能让模型调出一个“类型化”的形象:
赛博朋克深海潜员 / 荒漠吉普赛占卜师 / 废土机甲维修师 / 极地科考员 / 蒸汽朋克发明家
身份标签的本质是在调用模型训练数据中已有的形象模板。
如果你的角色刚好符合某种典型形象,一个身份标签就够了。
第二层:外貌特征
当身份标签不够精确,或者你的角色不属于任何典型类型时,需要补充外貌特征:
短发的中年男人 / 扎着双马尾的少女 / 络腮胡的壮汉 / 白发苍苍的老太太
外貌特征的写法原则是:写模型能画面化的特征。
“性格开朗”不是外貌特征,模型画不出来。“圆脸、酒窝、齐刘海”才是。
第三层:服装描写
服装是区分角色最有效的视觉手段,也是纯文字定人中信息密度最高的一层:
穿黑色长风衣的 / 上身白T恤、下身破洞牛仔裤 / 一袭红色汉服、腰间系着金色腰带 / 全身深蓝色西装三件套
服装描写越具体,角色的形象越稳定。
特别是颜色:颜色是最容易被模型精确执行的视觉指令。
第四层:气质/状态修饰
这一层不是定义“长什么样”,而是定义“看起来什么感觉”:
气质冷峻的 / 神情疲惫的 / 眼神犀利的 / 一脸稚气的 / 额角渗出细密汗珠的
气质修饰会影响模型生成角色时的表情、姿态和整体氛围。
它不改变五官,但改变“感觉”。
参考公式
把四层组合起来,一个完整的纯文字角色定义就是:
[身份标签] + [外貌特征] + [服装描写] + [气质/状态修饰]
示例:
一个穿着深灰色机车皮衣的短发年轻女性,皮肤偏冷白,眼神凌厉,嘴角微微上扬带着一丝挑衅。
一位聚精会神的机械钟表匠,戴着单口放大镜,双手微微颤抖,汗珠从鬓角滑落到精密的齿轮零件上。
一个穿黑色西装三件套的瘦高男人,头发梳得一丝不苟,单手插兜,表情冷漠得像是欠了他钱。
四层不需要每次都写满。
如果场景里角色只是一闪而过的路人,一个身份标签就够了。
只有主角级的角色,才需要写到三到四层。
多角色场景的定人技巧
纯文字做多人场景时,最大的问题是模型分不清“谁是谁”。
解决方法:给每个角色一个独特的视觉锚点。
左侧穿红衣的女孩 / 右边戴帽子的男人 / 中间那个背吉他的少年
用“位置 + 服装/配饰”的组合来区分角色。
颜色差异越大,模型越不容易搞混。
定人 × 时间:角色何时出场、何时变化
很多人写角色描写,只在提示词开头定义一次就完事了。
但如果你的视频里角色有状态变化,比如一开始面无表情、后来笑了;一开始穿大衣、后来脱掉了——那就需要用时间来精确控制角色的“变身节点”。
基础写法——角色在开头一次性定义,全程不变:
一个穿白色连衣裙的长发女孩站在海边……
进阶写法——用时间锚点控制角色的状态变化:
0-5秒:一个穿黑色西装的男人坐在办公桌前,表情严肃,手指快速敲着键盘。
5-10秒:男人停下来,揉了揉太阳穴,神情疲惫,松开了领带的第一颗扣子。
10-15秒:男人突然看到手机屏幕上的消息,嘴角忍不住上扬,整个人的气质从紧绷变得柔和。
同一个角色,三段时间里的气质状态完全不同——严肃→疲惫→柔和。
时间锚点让这种渐变有了精确的节奏,而不是让模型自己猜“什么时候表情该变”。
多角色出场时序:控制“谁先出现、谁后出现”。
0-3秒:空旷的教室里,只有一个戴眼镜的男生坐在最后一排写作业。
3-7秒:教室门被推开,一个扎马尾的女生探头进来,手里拿着两杯奶茶。
7-10秒:女生走到男生旁边坐下,把一杯奶茶放在他桌上,男生抬头看了她一眼,没说话但嘴角微微翘起来。
角色的出场顺序被精确安排在了不同的时间段,先建立“独处的男生”,再引入“带奶茶的女生”,最后展示两人互动。
如果不写时间标注,模型很可能让两个人同时出现在画面里,“独处→被打断”的情绪层次就没了。
第三章:定景——用文字构建视频的空间
定景的核心:让模型“看见”你脑子里的场景
纯文字模式下,场景完全靠文字描写来建立。
写得好,模型生成的场景跟你想的八九不离十;写得模糊,模型就自由发挥,出来一个“差不多”的环境。
场景描写的三层结构
第一层:场景类型——“这是哪”
最基础的场景信息,一个短语就能确定空间的基本属性:
街头 / 酒吧 / 火车站台 / 竹林空地 / 写字楼走廊 / 咖啡馆吧台 / 海边沙滩
场景类型是模型理解空间的“起点”。
写了“酒吧”,模型就知道要有吧台、灯光偏暗、可能有酒瓶和杯子。
第二层:时代/风格——“这是什么样的地方”
同样是“街道”,加上不同的时代/风格修饰,画面完全不同:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
时代/风格修饰是性价比最高的场景描写手段。
只需要加几个修饰词,整个画面的质感就从“普通”变成了“有味道”。
第三层:环境细节——“空间里有什么”
这一层决定了场景是“空洞的”还是“有生活感的”:
墙角堆着几个纸箱 / 窗台上放着一盆快枯掉的绿萝 / 桌上散着几本翻开的旧书和一杯没喝完的咖啡 / 远处停着一辆轮胎泄了气的自行车
环境细节的作用不是“让模型知道这是哪”(第一层已经解决了),而是让场景活起来。
光线和天气:场景的“情绪开关”
同一个场景,换一种光线和天气,情绪完全不同:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
光线和天气描写是纯文字创作中最容易被忽视但最有用的工具。
如果不特别指定,模型会默认使用一种“中性”的均匀光线。
画面干净但没有情绪,加上光线描写后,整个画面的氛围就立起来了。
参考公式
[场景类型] + [时代/风格修饰] + [环境细节] + [光线/天气]
示例:
一间昏暗的老式爵士酒吧,墙上挂着几张发黄的黑白照片,吧台上摆着半瓶没开封的威士忌,角落里的老式唱片机正在转动,暖黄色的灯光在烟雾中弥散。
暴雨中的东京涩谷十字路口,满街的霓虹招牌在湿漉漉的地面上投下五颜六色的倒影,行人撑着透明雨伞匆匆穿过斑马线。
定景 × 时间:场景何时切换、环境如何演变
场景和时间的关系,体现在两个层面:场景跳转和环境渐变。
场景跳转——用时间锚点控制“什么时候换地方”:
如果你的视频需要在不同场景之间切换,时间标注能精确控制每个场景停留多久:
0-5秒:清晨的卧室,阳光从窗帘缝里透进来,女孩还赖在被窝里。
5-10秒:镜头切到厨房,煎蛋在平底锅上滋滋作响,一双手把煎蛋铲进盘子里。
10-15秒:画面回到卧室,女孩被煎蛋的香味唤醒,揉着眼睛坐起来,鼻子使劲嗅了嗅空气。
三个时间段,两次场景切换(卧室→厨房→卧室),每个场景的时长都被精确分配。
如果不标注时间,模型可能把“卧室赖床”拍了10秒,厨房和最后的反应只剩5秒塞在一起。
环境渐变——不换场景,但场景本身在变化:
更高级的用法:场景不跳转,但环境细节随时间推移发生变化。
这是营造“时间流逝感”的绝佳技巧:
0-5秒:午后的咖啡馆窗边,阳光透过玻璃照在桌面上,咖啡杯里的热气还在升腾。
5-10秒:窗外的光线渐渐变暖,从正午的白光转为黄昏的橘色,咖啡杯已经空了,杯底留着一圈咖啡渍。
10-15秒:窗外已经完全是夜色,街灯亮起,桌上的咖啡杯旁多了一本翻到中间的书和一副摘下的眼镜。
同一个座位,15秒里经历了午后→黄昏→入夜。
场景没有切换,但环境细节的变化让观众感受到了时间的流逝。
这种写法在治愈系视频和品牌调性片里特别有效。
第四章:定调——用文字控制画面风格和质感
定调的本质:告诉模型“这段视频应该像什么”
同样的角色、同样的场景、同样的动作,换一种“调性”,出来的结果天差地别。
“定调”就是用文字精确控制视频的整体风格、画面质感和情绪基调。
定调的三个层次
第一层:片型定调——“这是什么类型的片子”
最快速的定调方式,一个短语就能让模型切换到对应的视觉模板:
谍战片风格 / 科幻电影质感 / 日式动漫风格 / 纪录片风格 / 恐怖片氛围 / 搞笑喜剧 / 武侠片
片型定调的威力在于:
一个词就能同时改变色调、光影、构图、节奏。
写了“谍战片风格”,模型自动就会倾向于冷色调、低机位、紧凑剪辑、压迫感光影。
写了“黑白水墨风格”,整个画面的渲染方式都会切换。这
第二层:画面质感——“画面看起来什么感觉”
在片型基础上进一步精确画面的视觉特征:
电影级画面 / 真实胶片颗粒感 / 黑白水墨风格 / 低饱和度冷调 / 高对比度暗调 / 柔光朦胧感 / 赛博朋克霓虹质感
可以叠加使用,而且可以叠加得非常具体。
Seedance 2.0对技术参数有精确的响应能力:
9:16竖屏电影质感,60fps高帧率丝滑动态,高动态范围(HDR)的光影层级
这段描写同时指定了画质级别(电影级写实)、画面比例(2.35:1宽银幕)、帧率质感(24fps)和整体观感(细腻)。
第三层:情绪基调——“观众看完应该是什么感受”
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
情绪基调和片型定调可以叠加。
比如“温馨治愈的纪录片风格”,模型会把纪录片的真实感和治愈系的柔暖色调融合在一起。
“诙谐幽默”的调性还能让角色的表情和肢体语言自带喜感。
定调 × 时间:风格和情绪如何随时间演变
定调不是只能在开头“一锤定音”。
高级的纯文字创作,会让调性随时间推移发生变化:这就是所谓的“情绪弧线”。
从静到动的节奏曲线:
谍战片风格,冷色调,画面紧张压迫。
0-4秒:深夜的老旧码头,浓雾弥漫,远处传来低沉的船笛声。一个穿黑色长风衣的男人站在集装箱后面,手里攥着一份文件。镜头从远处缓慢推近他的背影。
4-8秒:对面走来另一个人,戴着帽子看不清脸。两人相对而立。风衣男把文件递过去,低声说“东西在这里,后面的事跟我没关系了”。镜头切到手部特写,文件在两只手之间传递。
8-12秒:远处突然亮起车灯,刺目的白光扫过码头。风衣男猛地回头,瞳孔收缩,脸上掠过一丝紧张。帽子男迅速将文件塞进大衣内袋,转身消失在浓雾中。金属器具碰撞的声响从暗处传来。
12-15秒:镜头拉远至全景,码头重新陷入沉寂,只剩风衣男一人站在原地,浓雾吞没了一切。画面缓缓暗下去,远处的船笛声再次响起。
注意这段提示词的情绪曲线:静(0-4s)→ 紧绷(4-8s)→ 爆发(8-12s)→ 回归沉寂(12-15s)。
整体调性是“谍战片冷色调”,但紧张程度在第8秒到达峰值,然后快速回落。
时间锚点让情绪的“加速→刹车”有了精确的时间坐标。
情绪转折——从暖到冷的反差设计:
0-7秒:温暖的午后,父亲和女儿在火车站台上互相整理衣领,嘴上说着“路上饿了吃”,女儿笑着接过塞得鼓鼓的帆布袋。画面暖色调,柔光。
7-12秒:列车进站的广播声响起,女儿转身走向车厢。父亲抬起手想挥一下但又放下了,嘴唇微微颤动。画面色温骤降,变为冷灰调。
12-15秒:车窗里女儿的脸一闪而过,父亲站在原地没动,镜头缓缓拉远,他的身影在薄雾中越来越小。
转折点在第7秒:情绪从温暖的互动突然切到离别的压迫感,色调的冷暖变化被安排在了“广播声响起”这个外部事件上。
好的情绪转折,总是有一个“触发点”,用时间标注,你可以精确控制这个触发点出现在第几秒。
15秒剧情的黄金结构:
转折点放在60%-80%的位置(即第9-12秒),前面铺垫,后面消化。
转折太早(第3秒),后面留白太多;转折太晚(第14秒),观众来不及感受。
第五章:定音——用文字控制声音的全部要素
声音是最被低估的纯文字控制维度
大部分人写提示词只想着画面,忘了Seedance 2.0是自带声音生成能力的。
对白、音效、配乐,这三样东西全部可以用纯文字控制,不需要上传任何音频素材。
而且,声音控制本来就不依赖参考图。
这意味着不管素材审核多严格,声音维度的能力完全不受影响。
对白控制:直接把台词写出来
Seedance 2.0支持在提示词里直接写角色台词,模型会生成对应的配音:
男人叹了口气说“你就不能消停一会儿吗”
女孩扑到他怀里大声喊“你终于回来了!”
对白写作的四个技巧:
-
加上情绪动作:不要只写台词,要写“怎么说”。
咬牙切齿地说vs轻声细语地说vs哭着喊,模型会配合对应的语气和表情 -
指定语言和口音:
用四川话说、用德语说、用带广东口音的普通话说、用俄语说——模型支持多语种和方言配音。 -
多角色对话要标清身份:
猫(舔毛翻眼):“你今天又拆沙发了?” 狗(歪头晃尾巴):“那又不是我干的。”
-
对白的情感强度要写具体:
不要只写“他说了一句话”,要写清楚情感烈度。
“低声说”和“嘶吼”差了十个档,模型的声音输出会根据这些修饰词精确调整音量、语速和情绪激烈程度
音效控制:描述你想听到的环境声
Seedance 2.0会根据你的文字描写自动生成对应的音效:
闹钟刺耳地响起
远处传来玻璃碰撞的声音
脚步声由远及近,最后在门前停下
雷声从远处滚过来,雨点开始噼里啪啦地打在窗户上
走路声,人群声,汽车声
音效描写不需要多复杂,关键是写具体的声源和声音特征。
“有声音”太模糊,“金属器具碰撞的清脆声响”就很精确。
“背景音效为走路声,人群声,汽车声”这种并列罗列的写法也完全有效,模型会同时生成多层环境声。
配乐控制:用关键词定义背景音乐
恢宏大气的管弦乐配乐
电吉他的激昂摇滚乐
轻快的爵士钢琴背景音
紧张的低频电子音效
安静,只有环境白噪音
配乐描写的原则:
指定情绪 + 乐器/风格。
“恢宏大气”是情绪,“管弦乐”是风格,两个叠在一起,模型就知道你要什么了。
还有一种更精细的写法,就是指定配乐的叙事功能:
背景拉美音乐响起——人群中有人开始踏起步子,孩子们跟着节奏拍手
这里配乐不只是“背景装饰”,而是叙事的一部分。
音乐响起触发了角色的舞蹈行为。
这种“音乐驱动剧情”的写法在官方手册的家族舞蹈案例中被展示过,是非常高级的声画联动技巧。
旁白与画外音:不在画面里的声音
画面最下方出现艺术感字幕和旁白:“宜口可乐,不可不尝!”
画外音响起“每一天,都值得被认真对待”
用科普风格和音色,将图片中的内容演绎出来
旁白/画外音是广告和纪录片的核心声音工具。
注意Seedance 2.0还支持指定音色风格。
“科普风格和音色”就是在告诉模型:旁白要像科教频道的解说员,语速适中、吐字清晰、权威感强。
定音 × 时间:声音如何在时间轴上精确排布
声音和时间是天生的搭档,因为声音本身就是时间性的。
一段音乐是从哪秒开始的?一句台词是在什么时候说的?一个音效在画面的哪个瞬间响起?
这些问题,只有时间轴能精确回答。
对白的时间排布——控制“谁在第几秒说什么”:
0-3秒:飞船驾驶舱红光闪烁,刺耳的警报器呜叫不停,画面剧烈抖动。
3-10秒:镜头快速切到副驾驶面部特写,他惊恐地看着仪表盘,对着无线电急促地喊道:“引擎熄火了!请求立即迫降!”
10-12秒:主驾驶咬紧牙关,双手死死握住操纵杆,大声回应:“稳住!看我的!”
12-15秒:飞船冲出云层,下方出现荒原,画面剧烈震荡,主驾驶喘着粗气说:“准备迎接冲击!”
这是模拟紧急情境下的写法:
警报声在0秒响起(音效),呼救的互动占据3-10秒(对白+动作),台词“准备迎接冲击”被精确放在了12-15秒收尾。
每个声音元素都有自己的“出场时间”。
音效的声画同步——让声音和画面在同一秒爆发:
0-2秒:俯拍镜头,两架小型侦察机在云层中追逐,画面安静得只听到引擎的低鸣。
2-4秒:近景快切,后方飞机发射电磁脉冲,蓝紫色的电弧瞬间击中前方机翼,伴随耀眼的强光和兹兹的电流声。
4-6秒:机翼受损冒出火花,碎片四溅,伴随金属撕裂的清脆声响。
6-8秒:低角度仰拍定格,胜者收剑入鞘,“嚓”的一声金属声,败者单膝跪地,漫天竹叶缓缓回落。
每一段的声音和画面是同步设计的:拔剑的画面配金属声,竹子断裂的画面配清脆声。
这种精确的声画同步,只有在时间轴模式下才做得到。
配乐的情绪渐变——让音乐和画面一起“呼吸”:
0-5秒:轻柔的钢琴声开始,画面是雨天的窗台。
5-10秒:钢琴声中加入大提琴的低音和弦,画面里一只手缓缓伸入放下一杯热茶。
10-15秒:音乐渐弱,最后只剩下雨声和远处若有似无的钢琴余韵。
配乐从单一乐器(钢琴)逐渐丰富(加入大提琴),最后又退回到环境声(雨声)。
音乐的“加法→减法”和画面的“静→微动→更静”完全同步。
这种写法的精髓在于:你不是在“描述配乐”,你是在用配乐的变化来引导画面的情绪走向。
第六章:定拍——用文字控制角色动作和镜头运动
定拍 = 角色怎么动 + 镜头怎么拍
“定拍”覆盖两件事:
一是角色的行为、动作、表情变化,二是摄像机的运动方式。
这两样合在一起,就构成了视频的“动态信息”。
角色动作描写:核心技巧是“微动作链”
纯文字控制角色动作的精髓在于:不要写抽象动作,要写具体的“微动作序列”。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
“微动作链”的本质就是:
把一个笼统的行为拆解成模型能逐帧执行的具体肢体动作。
举个例子:
魔术师在镜头前露出神秘微笑,眼睛直视观众,接着他快速翻转右手,原本空无一物的手心突然弹出一张燃烧的扑克牌,然后他轻轻一吹,火焰熄灭,卡牌变成了飞舞的蝴蝶。
“神秘微笑”是抽象的,但“直视观众”把它变成了具体动作。
“变戏法”是笼统的,但“翻转右手→弹出扑克牌→一吹→变成蝴蝶”把它拆成了四步微动作。
这就是微动作链的威力。
镜头运动描写:用术语代替参考视频
没有参考视频的情况下,镜头运动完全靠文字术语来驱动。
这里推荐一些常用的镜头指令:
基础运镜:
-
镜头缓慢推近— 从远到近,聚焦主体 -
镜头拉远至全景— 从近到远,展示环境 -
镜头左摇/右摇— 水平扫视 -
跟随镜头— 摄像机跟着角色移动 -
固定镜头— 摄像机不动
进阶运镜:
-
环绕镜头— 围绕角色旋转拍摄 -
一镜到底— 全程不切镜头 -
俯拍/仰拍— 上帝视角/英雄视角 -
第一人称主观视角— 观众就是角色本人 -
希区柯克变焦— 主体不变但背景急速推近,产生眩晕感 -
鱼眼镜头— 画面边缘弯曲变形,视觉冲击力极强
景别控制:
-
全景— 展示整个场景和角色全身 -
中景— 角色膝盖以上 -
近景/特写— 面部或物体细节 -
微距— 极致细节,如眼睛瞳孔、指纹纹路、皮面纹理
多运镜组合:Seedance 2.0是支持在一段提示词中串联多种运镜。
镜头跟随跑酷者在脚手架上狂奔,在狭窄的横梁上翻滚,镜头从背面的跟随视角通过低视角环绕到跑酷者正面;镜头再右摇90度拍摄下方的万丈深渊,急停后右摇180度,怼脸拍摄跑酷者:他大口喘气,眼神坚定,镜头跟随他的视角环视四周。
跟随→低视角环绕→右摇→急停→右摇→怼脸——六种运镜在一段描写中无缝串联。
这种写法对Seedance 2.0来说完全可以执行,前提是每种运镜之间的衔接要自然。
定拍 × 时间:动作和镜头如何在时间轴上精确编排
动作和镜头是五定中和时间关系最紧密的维度,因为动作本身就是随时间展开的。
微动作链 + 时间锚点 = 逐秒导演术:
0-3秒:镜头从身后跟随女孩穿过拥挤的夜市。
3-6秒:她在一个烤串摊前停下,伸手指了指架子上的烤玉米,掏出手机扫码付款。
6-10秒:接过玉米咬了一口,被烫得直吸气,然后笑着继续往前走。
10-15秒:镜头绕到正面,半身特写,她冲镜头竖了个大拇指。
每段时间里的动作数量是经过算计的:
0-3秒只有一个动作(穿过夜市),3-6秒有三个快速动作(停下→指→扫码),6-10秒有三个带节奏的动作(咬→吸气→笑着走),10-15秒只有一个收尾动作(竖拇指)。
这就引出一个关键概念——时间密度。
时间密度:每秒钟该写多少内容
时间密度 = 单位时间内的提示词信息量。
密度控制是写好时间轴的核心技能之一。
三个密度档位:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
低密度示例:
0-5秒:晨光穿过半透明的窗帘,在老旧的书桌上投下温柔的光斑,一杯刚泡好的茶冒着缭绕的白气。
5秒,约40字,只有光影和白气在微动。
这种“空”本身就是氛围感的来源。
中密度示例:
3-8秒:镜头跟随女孩穿过拥挤的集市,她的手拂过摊位上的水果,挑了一个苹果放进帆布袋,回头朝身后的同伴笑了笑。
5秒,约50字,有镜头运动(跟随)、有角色行为(穿过、拂过、挑、放、回头笑)。
高密度示例:
7-12秒:快速切换四个佩戴场景——丝带系在风衣领口的通勤造型、缠绕在马尾上的甜美风格、扣在手袋链条上的简约搭配、别在西装胸口的利落质感。
5秒里塞了4次场景切换,每个场景十几个字一笔带过。这是典型的广告展示密度。
密度与段数的匹配:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
三个密度失控的警示信号:
-
单段描写超过80字但只有2-3秒 → 信息过载,删减到50字以内 -
总提示词超过400字但没有时间段划分 → 模型会把所有内容当“一坨”理解,大概率前面堆积后面空白 -
相邻两段描写字数差异超过3倍 → 模型会困惑,重新平衡各段的描写量
一镜到底:什么时候不该用时间锚点
一镜到底是Seedance 2.0的一个强项能力。
但这种场景恰恰不适合用精确时间锚点,因为一旦你把连续动作切成时间段,画面就会有“断裂感”,破坏了一镜到底的连贯性。
一镜到底场景应该用动作流连接词来写:
废土电影风格,镜头正面跟拍一只流浪的小狗在熙熙攘攘的废料市场中穿行,镜头全景跟随,不断有巨大的机械腿遮挡小狗,走到一个集装箱拐角处,固定镜头小狗转弯消失,一个戴着防毒面罩的拾荒者在暗处躲着偷看它。镜头往前摇向小狗,它钻进了一个生锈的飞船座舱里。全程不要切镜头,一镜到底。
没有时间标注,所有动作用自然语言串联——穿行→遮挡→拐角→消失→拾荒者→座舱。
最后一句“全程不要切镜头,一镜到底”是关键指令,明确告诉模型不要切断画面连续性。
选择原则:如果你的视频是“连续运动的一条线”,用动作流;如果是“多个独立段落的拼接”,用时间锚点。
第七章:时间段落间的衔接技巧
五定组合公式
[定人] + [定景] + [定调] + [定音] + [定拍]
并不是每次都必须写满五定,可根据内容需要,灵活取舍:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
段间过渡——时间段之间如何衔接
当你使用时间锚点写出多个段落后,段与段之间如果缺乏衔接,画面会产生生硬的“跳切感”。
三种过渡技巧可以解决这个问题:
视觉过渡——用同一个画面元素桥接两段:
6-10秒:……镜头向角色手中的玻璃杯推进,画面逐渐被玻璃的折射光填满,直至纯白色。 10-15秒:纯白色画面中渐渐浮现出雪山的轮廓……
第一段结束在“纯白色”,第二段从“纯白色”开始,一个视觉元素同时存在于两段中,产生了无缝衔接。
动作过渡——上一段的动作延续到下一段:
0-4秒:角色猛地将门推开—— 4-8秒:门后是一片出乎意料的花海,角色呆住了,手还保持着推门的姿势。
第一段的“推门”动作在第二段仍然延续,两段之间有动作的连贯性。
声音过渡——用声音做段落间的桥梁:
7-10秒:……远处传来火车汽笛的声音。 10-15秒:画面切到火车站台,汽笛声从远到近变得刺耳……
声音在第一段作为背景暗示出现,在第二段成为主导元素——听觉上的连贯性让视觉上的场景切换更加自然。
最后的话:
把角色写清楚(定人),把场景写详细(定景),把风格写明确(定调),把声音写具体(定音),把动作写精准(定拍)。
以上,就是五定法要做的事。
=END=
⏬心辰的个人微信
快来一起玩提示词






暂无评论内容