由AI绘画模型引发的思考
AI绘画的底层逻辑
输入:用户可以通过文本、语音、手绘草图等方式输入自己想要绘制的内容或主题,例如“一只猫在草地上玩耍”。
编码:AI系统会将用户的输入转换为一种特征向量或编码,这个编码包含了用户输入的语义信息和风格信息,例如“猫”、“草地”、“玩耍”等。
等深度学习模型来实现的。这些模型通常需要大量的训练数据来学习如何生成逼真和多样化的图片。
输出:AI系统会将优化后的图片输出给用户,用户可以查看、保存或分享图片。用户也可以对图片进行反馈或修改,以改进AI系统的性能和效果。

深度学习模型
什么是深度学习模型?
深度学习模型是一种用于解决复杂问题的机器学习模型,它由多个层次的神经网络组成,可以从数据中自动提取特征和规律。深度学习模型有以下的特点:
。
。
。

GANs是一种由生成器(Generator)和判别器(Discriminator)组成的深度学习模型,它们相互竞争,生成器试图生成逼真的图片,判别器试图区分真实图片和生成图片。通过不断地训练,生成器可以学习到数据的分布,并产生新的样本。
混合是指将不同的GANs结合起来,利用它们各自的优势和特点,例如不同的风格、主题、分辨率等。混合的方式有很多种,例如加权平均、融合、拼接等。混合可以提高生成图片的质量和符合度。

VAE
VAE(Variational Autoencoder)是一种基于自编码器(Autoencoder)的深度学习模型。与传统的自编码器不同,VAE不仅可以学习输入数据的压缩表示,还可以学习数据的分布,因此可以用于生成新的样本数据。
VAE的关键思想是将输入数据视为从潜在空间中的一些隐变量生成的结果,这些隐变量构成了潜在空间的编码。为了学习这个潜在空间的分布,VAE使用了一种称为变分推断(Variational Inference)的方法。
,VAE将输入数据分解为两个部分:一个潜在空间的编码,以及从该编码生成的数据。这个过程可以用一个编码器网络和一个解码器网络来实现。编码器网络将输入数据转换为潜在空间中的均值和方差,然后从该分布中采样以获得潜在编码。解码器网络将潜在编码转换回原始数据。

定义了模型参数,包括输入数据的维度、潜在空间的维度、编码器和解码器中间层的维度、训练轮数和批量大小等。
定义编码器网络,包括输入层、中间层和输出层。其中,中间层使用ReLU激活函数,输出层分别输出均值和方差。
定义采样函数,从潜在分布中采样一个编码。这个函数将在编码器网络中使用。
使用Lambda层将采样函数添加到编码器网络中,将均值和方差转换为潜在编码。
定义解码器网络,包括输入层、中间层和输出层。其中,中间层使用ReLU激活函数,输出层使用Sigmoid激活函数。
将编码器和解码器组成整个VAE模型。
定义VAE的损失函数,包括重构损失和KL散度。其中,重构损失使用二元交叉熵损失函数,KL散度用于衡量潜在编码和标准正态分布之间的差异。
使用训练数据训练VAE模型。
安装stable-diffusion-webui UI
安装深度学习模型(放入stable-diffusion-webui/models/Stable-diffusion)
[安装网站] https://civitai.com/
安装lore模型(Lore模型通过学习真实图像的分布特征,能够生成高分辨率、高质量的自然场景图像。) (放入stable-diffusion-webui/models/lora)
启动使用
成功图片展示



