找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

一文读懂Stable Diffusion(小白向)

一文读懂Stable Diffusion(小白向)
回复

使用道具 举报

大神点评(1)

一文读懂Stable Diffusion(小白向)
一、什么是Stable Diffusion
Stable Diffusion,直译为稳定扩散,是一种基于扩散模型的图像生成技术。为了理解Stable Diffusion,我们首先需要了解前向扩散和逆向扩散两个过程。
    前向扩散:这个过程是向训练图像中不断地添加噪声,使其逐渐变为一张毫无意义的纯噪声图。想象一下,一张清晰的猫的图片,经过前向扩散后,最终会变成一张随机噪声图。
z1.jpg

    逆向扩散:与前向扩散相反,逆向扩散是从一个随机噪声图像开始,逐步恢复出原始图像(如猫图像)的过程。Stable Diffusion的核心就是逆向扩散,即从一张完全高斯噪音开始,根据用户输入的要求,逐步剔除噪音,直到产生出用户所需的图片。
z2.jpg

在这个过程中,降噪模型是关键,它根据用户输入的文本(即噪声预测器)来预测并去除噪声,最终得到用户所需的图片。整个流程涉及图像编码器、文本编码器、扩散模型和图像解码器四个神经网络模型。
二、常见功能模型
Stable Diffusion提供了多种功能模型,以满足不同的图像生成需求。这些模型基于训练方式的不同,可以分为Checkpoint、LoRA、Textual Inversion、Hypernetwork等。
    Checkpoint大模型:这是Stable Diffusion中最重要的模型,也称为主模型或基础模型。它的后缀通常为.ckpt或.safetensors,可以在WebUI的左上角进行切换。
    LoRA和LyCORIS小模型:这些都属于微调模型,用于控制画风、生成的角色、角色的姿势等。它们的后缀为.safetensors,可以在WebUI中点击左侧的小红灯,然后在LoRA菜单中点击使用,也可以直接使用Prompt调用。
    Textual Inversion小模型:这是文本编码器模型,用于改变文字向量。它的后缀为.pt或.safetensors,可以在WebUI的小红灯中的Textual Inversion中使用,也可以使用Prompt调用。
    Hypernetworks小模型:用于调整模型神经网络权重,进行风格的微调。
    ControlNet:这是一个强大的控制模型,可以做到画面控制、动作控制、色深控制、色彩控制等。使用时需要安装相应的扩展。
    VAE类似滤镜:一般用于图片亮度和饱和度的修正、画面校正以及补光等。
    CodeFormer:用于图片的修复,如提高图片的分辨率、将黑白照片修改成彩色照片、人脸修复等。
三、Web UI操作界面演示
Stable Diffusion的Web UI操作界面简洁明了,以下是各区域的功能介绍:
    区域1:模型选择区,用于选择不同的Stable Diffusion模型。
    区域2:正向提示词,输入描述你想要的图像特征的词汇或短语。
    区域3:反向提示词,输入你不希望出现在图像中的特征或词汇。
    区域4:参数调整区,包括采样器、采样步数、图像生成种子、提示词引导系数等常用设置,以及图像的长宽等。
    区域5:生成按钮,点击后根据输入的正向和反向提示词以及参数设置生成图像。
    区域6:小红点,点击打开LoRA设置等高级选项。
    区域7:图像展示区,显示生成的图像。
    区域8:VAE模型选择区,用于选择不同的VAE模型进行图像修正。
    区域9:中文提示词输入插件,方便用户输入中文提示词。
四、如何一键亲自上手
对于想要亲自尝试Stable Diffusion的用户,可以选择一个提供Stable Diffusion服务的站点,如AI工具盒子等。这些站点通常提供了免软硬件安装、免配置环境的便捷服务,用户只需在浏览器中打开工作台,即可直接进行图像生成操作。
例如,在AI工具盒子中,用户可以选择模型、输入正向和反向提示词、调整参数,然后点击生成按钮即可得到想要的图像。此外,用户还可以尝试使用不同的功能模型,如LoRA、Textual Inversion等,来探索更多样化的图像生成效果。
z3.jpg

以上图片中的效果就是在AI工具盒子中直接打开工作台亲手制作的示例。通过简单的操作,用户就可以轻松生成出各种风格独特、细节丰富的图像。
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐