欢迎光临散文网 会员登陆 & 注册

由AI绘画模型引发的思考

2023-02-24 15:33 作者:耀华风天  | 我要投稿

AI绘画的底层逻辑

  • 输入:用户可以通过文本、语音、手绘草图等方式输入自己想要绘制的内容或主题,例如“一只猫在草地上玩耍”。

  • 编码:AI系统会将用户的输入转换为一种特征向量或编码,这个编码包含了用户输入的语义信息和风格信息,例如“猫”、“草地”、“玩耍”等。

  • 生成:AI系统会根据编码生成一张或多张候选图片,这些图片可能是通过GANs(生成对抗网络)、VAEs(变分自编码器)等深度学习模型来实现的。这些模型通常需要大量的训练数据来学习如何生成逼真和多样化的图片。

  • 优化:AI系统会对生成的图片进行优化和调整,以提高图片的质量和符合度。这些优化可能包括去除噪声、增强对比度、修复缺陷、添加细节等。优化过程可能涉及到其他的AI技术,例如图像分割、图像超分辨率、图像风格迁移等。

  • 输出:AI系统会将优化后的图片输出给用户,用户可以查看、保存或分享图片。用户也可以对图片进行反馈或修改,以改进AI系统的性能和效果。

深度学习模型

     什么是深度学习模型?

深度学习模型是一种用于解决复杂问题的机器学习模型,它由多个层次的神经网络组成,可以从数据中自动提取特征和规律。深度学习模型有以下的特点:

  • 深度是指模型的层数,一般来说,层数越多,模型越能够捕捉数据的细节和抽象

  • 学习是指模型的训练过程,通过不断地调整神经网络中的参数(权重和偏置),使得模型能够逼近数据的真实分布

  • 模型是指模型的结构和形式,不同的问题需要不同的模型来解决。常见的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等


  • GANs是一种由生成器(Generator)和判别器(Discriminator)组成的深度学习模型,它们相互竞争,生成器试图生成逼真的图片,判别器试图区分真实图片和生成图片。通过不断地训练,生成器可以学习到数据的分布,并产生新的样本

    混合是指将不同的GANs结合起来,利用它们各自的优势和特点,例如不同的风格、主题、分辨率等。混合的方式有很多种,例如加权平均、融合、拼接等。混合可以提高生成图片的质量和符合度



  • VAE

    • VAE(Variational Autoencoder)是一种基于自编码器(Autoencoder)的深度学习模型。与传统的自编码器不同,VAE不仅可以学习输入数据的压缩表示,还可以学习数据的分布,因此可以用于生成新的样本数据。

    • VAE的关键思想是将输入数据视为从潜在空间中的一些隐变量生成的结果,这些隐变量构成了潜在空间的编码。为了学习这个潜在空间的分布,VAE使用了一种称为变分推断(Variational Inference)的方法。

    • ,VAE将输入数据分解为两个部分:一个潜在空间的编码,以及从该编码生成的数据。这个过程可以用一个编码器网络和一个解码器网络来实现。编码器网络将输入数据转换为潜在空间中的均值和方差,然后从该分布中采样以获得潜在编码。解码器网络将潜在编码转换回原始数据。

      在训练期间,VAE的目标是最小化重构损失和潜在编码与事先定义的先验分布之间的KL散度。这样可以使模型在学习到输入数据的表示的同时,学习到了输入数据的潜在分布。

这个代码实现了一个基于MNIST数据集的简单VAE模型。主要步骤如下:

  1. 定义了模型参数,包括输入数据的维度、潜在空间的维度、编码器和解码器中间层的维度、训练轮数和批量大小等。

  2. 定义编码器网络,包括输入层、中间层和输出层。其中,中间层使用ReLU激活函数,输出层分别输出均值和方差。

  3. 定义采样函数,从潜在分布中采样一个编码。这个函数将在编码器网络中使用。

  4. 使用Lambda层将采样函数添加到编码器网络中,将均值和方差转换为潜在编码。

  5. 定义解码器网络,包括输入层、中间层和输出层。其中,中间层使用ReLU激活函数,输出层使用Sigmoid激活函数。

  6. 将编码器和解码器组成整个VAE模型。

  7. 定义VAE的损失函数,包括重构损失和KL散度。其中,重构损失使用二元交叉熵损失函数,KL散度用于衡量潜在编码和标准正态分布之间的差异。

  8. 使用训练数据训练VAE模型。

在训练过程中,我们将输入数据预处理为0到1之间的值,并使用Adam优化器最小化损失函数。在训练完成后,我们可以使用训练好的VAE模型来生成新的数字图像,或者使用潜在编码来实现数字图像的重构或插值。

利用chilloutmiix+lore实现图片生成

  • 安装stable-diffusion-webui UI

  • 安装深度学习模型(放入stable-diffusion-webui/models/Stable-diffusion)

    [安装网站]    https://civitai.com/ 


  • 安装lore模型(Lore模型通过学习真实图像的分布特征,能够生成高分辨率、高质量的自然场景图像。)  (放入stable-diffusion-webui/models/lora)

  • 启动使用

  1. 成功图片展示

img
img








由AI绘画模型引发的思考的评论 (共 条)

分享到微博请遵守国家法律