分享下我目前调试出来速度最优的stablediffusion配置
先说明一下,我机器比较垃圾,还是3700X CPU 48G DDR 2400 内存,4090 显卡 ,PCIE 3.0 SSD.
目前我在windows 下调试出来的SD最优最稳定配置如下
cuda: 11.8
cudnn: 8700
driver: 531.29
arch: AMD64
cpu: AMD64 Family 23 Model 113 Stepping 0, AuthenticAMD
system: Windows
release: Windows-10-10.0.22621-SP0
python: 3.10.11
2.0.0+cu118 autocast half
NV新版531.61之后的显卡驱动显卡驱动,会更加积极调用内存来弥补显存不足,直接导致了生成过程中VAE模型最后渲染的部分严重卡顿,我尝试过最新版,速度有很大下降,不建议使用。
包括新版的CUDA,效果都不算理想。优化模式我选择:sdp none
这是我测试的结果,可以参考,但是具体还是要执行system info 的基准测试来调试最合适你机器的方案。
https://github.com/vladmandic/sd-extension-system-info
安装这个插件即可。
—————————————————————————————————————————
关于加速,
GitHub - NVIDIA/Stable-Diffusion-WebUI-TensorRT项目
关于GitHub - NVIDIA/Stable-Diffusion-WebUI-TensorRT项目,用了它就不能用unet,controlnet 和其他生态基本不能用
可以用Lora,需要用TensorRT LoRA去创建一个lora引擎,刚才已测试。它会根据你当下选择的大模型+lora生成一个独立的Lora+大模型的引擎
速度会有略微提升,但是毫无疑问,所有unet 相关功能都不能用了。
用animatediff就别想着用了。
如果你只想要画图,那可以用这个,如果需要更多动画生产,不建议使用这个。