Text Encoder:使用CLIP的文本编码器,将输入的文本提示转化为大小为77×768的文本嵌入向量。 UNet:一个神经网络架构,用于在信息空间中迭代地对随机高斯噪声表示进行去噪。它通过与文本嵌入为条件,逐步生成更清晰的图像表示。 Scheduler:调度算法,用于控制UNet的去噪过程。它决定了在何时以及以何种方式更新图像表示。 Text Decoder:使用处理过的信息阵列绘制最终图像的解码器。它将潜在空间中的图像表示解码为具有特定尺寸(如512×512)的RGB图像。
三、实际应用中的有趣现象和技巧
风格化图像:通过调整提示词,Stable Diffusion可以生成具有不同风格的图像。例如,使用“anime screenshot”可以让画面变成动画风格,而“watercolor pencil”则可以生成彩铅画效果。 设定图生成:Stable Diffusion还可以用于生成设定图,如角色设定、服装设定等。通过输入特定的提示词,如“three views from front, back and side and costume setup materials”,可以生成包含角色正面、背面、侧面以及服装设定材料的图像。 渐变效果:在WebUI中,可以通过特定的语法实现渐变效果。例如,到了指定的Step,WebUI程序会替换对应的提示词,从而达到渐变的效果。 参数调整:通过调整参数,可以进一步控制生成图像的质量和风格。例如,使用“masterpiece, best quality”等参数可以提升图像的质量,而“longhair, shorthair”等参数则可以控制人物的发型。 NSFW内容:虽然Stable Diffusion可以生成各种风格的图像,但需要注意的是,它也可以生成NSFW(Not Safe For Work)内容。因此,在使用时需要谨慎选择提示词和参数,以避免生成不适当的内容。