本节我们介绍如何进行lora训练,相关软件安装不在此篇幅介绍,请自行安装,下面开始我们的lora人物训练吧,先准备好训练的图片,尺寸根据你显卡显存的大小,默认的图片尺寸大小为512×512,显卡显存小于8G的,建议使默认尺寸,如果你的显卡显存可以满足12g或12g以上,推荐使用768×768的图片来训练我们的模型,用大尺寸训练后的模型可以适当减少生成宽图出现的肢体叠加等效果,下面开始准备我们的图片吧。
一.图片要求
- 至少15张图片,每张图片的训练步数不少于100
- 照片人像要求多角度,特别是脸部特写(尽量高分辨率),多角度,多表情,不同灯光效果,不同姿势等
- 图片构图尽量简单,避免复杂的其他因素干扰
- 可以单张脸部特写+单张服装按比例组成的一组照片(这里比例是3:1)
- 减少重复或高度相似的图片,避免造成过拟合
二.图片处理
- 裁剪你的照片成768×768(我这里是用了768×768)的比例,裁剪照片可以到birme站点裁剪后批量下载,或者利用picpick软件自己裁剪后用python脚本批量改名和批量二次裁剪。
- 准备图片解析词,用stable diffusion 图片预处理模块preprocess image进行图片解析,注意图片尺寸修改为我们裁剪后的图片尺寸,图片解析使用BLIP,图片少于15张建议勾选create Flipped copies选项。
- (可选)编辑我们生成好的解析词文件,加入我们的关键人物tag,如果是服饰图片,可以给服饰加上我们自定义的tag用于区分服饰,相同的发型也可以打上发型的自定义tag,后面使用该lora模型可以加上服饰或发型部分的tag用于生成对应要求的图像,这里图片解析词我们可以使用kohay_ss的Utilities下的Captioning批量给我们处理后的解析词文件增加对应的角色tag和服饰tag,或者利用软件
批量增加我们的tag,推荐使用BooruDatasetTagManager,可以自己选中多张图加入我们要的tag,人物我们可以增量加入常用的tag如face,nose,lips,hairstyle,eyes,ears,forehead,breast等。
三.开始训练
- 准备好kohay_ss GUI训练工具(这里使用拓展的训练工具)并成功启动。
- 建立训练所需的img,model,log这三个文件夹,然后在img目录下新建一个文件夹,文件夹命名符合以下规则形(数字_角色关键词)136_zoologyzoo, 数字部分取(1500除以图片数量和100的最大值),每张图片训练步数起步最低100,也可以使用kohay_ss的自动生成设置,配置如下图
- 加载基础的训练配置文件,这里网上有整理了针对基础配置和低显存配置的两个默认的训练配置文件,我们加载进来后,默认基于stable diffusion1.5的模型训练的,这里看个人需求,可以选择custom后加载自己的模型文件。
- 把我们预处理后的图片拷贝到(数字_关键词)的目录下面,然后开始设置我们刚刚定义好的三个文件夹目录位置,注意image文件目录不需要选择到我们的图片,直接到image这层路径就好了。(如果用kohay_ss的自动生成设置了,此步骤可以忽略)
- 微调我们的训练参数,这边调整了Train batch size(单次并发训练的大小,图片少设置为1,图片多根据自己显存大小设置),Eopch(大意应该是生成几个时间点的数据,这里设置为2等会有两个节点的快照可以用x/y/z脚本测试哪个快照的训练成果更好)。
训练总的步数=(图片数量*单个图片的训练步数*Eopch)/Train batch size
- 开始训练,检查好参数后点击Train Model 按钮就可以开始我们的训练了。
四.模型使用
1.训练完后会在我们刚刚定义的model目录下生成一个lora模型文件,我们将他拷贝到stable diffusion的model目录下的lora文件夹下。
2.安装lora加载插件sd-webui-additional-networks,安装后重启Stable Diffusion Web UI可以在图生图的快捷区域调出我们的模型文件,
复制一段提词后,点击我们的lora模型,在正面提词里修改我们的lora模型权重后就开始抽卡了。
五.不符合预期的可能原因
- 图片分辨率低 – 可能导致人物面部的崩坏,有全身照但生成人物依然崩坏原因也可能是训练时人物照片分辨率低。
- 裁剪问题 – 如果裁剪的只有脸部图片,那么你只能得到脸图,或者扭曲的半身照,可以按照比例进行图片组合。
- 多个人或者构图复制,尽量让你的人物单独出镜,裁剪或者抹掉其他人或复杂的东西。
- 重复或高度相似,这会造成过拟合。
- 训练选择的基底模型问题