AutoDL租用显卡训练embeddings模型(教程)

AutoDL官网: www.autodl.com/home
我的注册邀请链接:
https://www.autodl.com/register?code=1737273a-6bb4-43f5-808c-5bd368630a14
镜像原作者(小李xiaolxl)教程:
www.bilibili.com/video/BV1Av4y1m7Th/
embeddings模型训练方法, 参考我之前发的专栏(和本地训练没有任何区别):
www.bilibili.com/read/cv20049885

(1)网页信息:
官网链接, 进入官网后, 自行摸索完成注册

2.常用三个选项(算力市场, 帮助文档, 控制台):

算力市场可以看到不同分区现在的可用机组数量, 价格, 型号, 配置等信息

帮助文档可以看到显卡算力等信息

控制台可以看到你租用的实例等信息


(2).如何创建新实例:
点击我的实例:

2.点击租用新实例:

3.选择你想要的实例, 我一般用的是芜湖的A5000, 内蒙古区比芜湖更便宜, 但是有些时候会出现无法拉取镜像的问题, 看自己取舍.

4. 像这样选择好你想要的机组

5. 拉取镜像, 点击算法镜像, 在下方的输入框里写入nov, 选择第二个镜像.

6. 点击完成创建

7.等待镜像拉取完成


(3)如何开机并使用实例:
1.实例开机后,点击jupyter

2. 运行1 和 4 代码块即可, 2学术加速看情况开, 一般我不会去打开他, 因为经常有反效果.


3. 设置运行目录为数据盘

4. 等待依赖包安装

5.显示端口的时候, 表示已成功启动

6.回到控制台目录, 选择自定义服务

7.成功进入webui界面


(3). 训练相关文件结构(! ! ! 在jupyter内操作 ! ! ! ):
如果你是按照我前面的方法启动的, 那文件目录位置会是根目录下的autodl-tmp内

2.我习惯上会在autodl-tmp文件夹内新建两个文件夹: img_Pretreatment(预处理后图像), img_raw_data(未处理原始图像)

3.在训练集文件夹内根据角色名再创建一个文件夹, 要来放置图片


(4).图像预处理
回到webui页面的预处理界面, 这里因为我刚刚创建的文件夹和框架是同一父目录下的不同文件夹, 所以引用的时候是../
../意为上级目录
./意为同级目录
原始数据地址为../img_raw_data/角色名
预处理后存储位置为../img_Pretreatment/角色名

2. 关于训练速度与成本:
因为现在改去租A5000实例了,显存24G可以把数据集的分辨率造高一点,试了三个分辨率渲染速度。
768*768速度为1.32it/s,折算过来大概4750步一小时
704*704速度为1.78it/s,折算过来就是6400步一小时
640*640速度为2.31it/s,折算过来就是8300步一小时
我的训练平均步数是65000步,就是768^2是13.7小时,704^2是10.2小时,640^2是7.8小时。
实例价格是1.3—1.4元一小时(此为芜湖区价格, 内蒙古区为1.1-1.2元一小时),按1.3算 就是
768^2素材一次训练花费17.8元
704^2素材一次训练花费13.26元
640^2素材一次训练花费10.14元
实际上算上预处理之类的时间会更长
大概就三档:20,15,12
3.需要注意, 这个webui的setting下载VAE是有问题的, 需要手动到
models/Stable-diffusion 目录下的 model.vae.pt 文件改名为1model.vae.pt (! ! ! 在jupyter内操作 ! ! ! )
单纯在settings里设置为无vae重启内核仍不生效
改完名字后, 再选择重启内核, 然后按照之前启动框架的方法重新打开就完成VAE卸载, 可以开始训练.


4.具体训练方法, 参考我之前发的专栏(和本地训练没有任何区别):
www.bilibili.com/read/cv20049885

(5).其他问题
1. 遇到这种报错: 试试关闭学术加速或打开学术加速
