什么是Stable Diffusion?一文带你区分 Diffusion,Latent Diffusion和S...

l21673933 · 2 小时前

masanniu · 2 小时前

Stable Diffusion是一种潜在的文本到图像扩散模型。为了更好地理解Stable Diffusion，我们需要先了解Diffusion Model（扩散模型）和Latent Diffusion（潜在扩散）这两个概念。
Diffusion Model（扩散模型）Diffusion Model是一类生成模型，与VAE（Variational Autoencoder，变分自动编码器）、GAN（Generative Adversarial Network，生成对抗网络）等生成网络不同。Diffusion扩散模型在前向阶段对图像逐步施加噪声，直至图像被破坏变成完全的高斯噪声。高斯噪声是一种随机信号，也称为正态分布噪声，其数学模型基于高斯分布的概率密度函数。然后，在逆向阶段，Diffusion Model学习从高斯噪声还原为原始图像的过程。
然而，扩散模型最大的问题是其时间成本和经济成本都极其高昂。这限制了其在实际应用中的广泛推广。
Latent Diffusion（潜在扩散）为了解决扩散模型的成本问题，Latent Diffusion应运而生。Latent Diffusion通过在一个潜在空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像。这种方法大大降低了落地门槛，使得文图生成能够在消费级GPU上，在10秒级别的时间内生成图片。潜在扩散模型在生成细节丰富的、具有不同背景的高分辨率图像方面非常稳健，同时还保留了图像的语义结构。因此，潜在扩散模型是图像生成及深度学习领域的一项重大进步。
潜在空间简单的说是对压缩数据的表示。通过降维，我们可以过滤掉一些不太重要的信息，只保留最重要的信息，从而提高生成效率和质量。
Stable DiffusionStable Diffusion就是一种潜在扩散模型，具体来说，是一种潜在的文本到图像扩散模型。它是在Diffusion Model和Latent Diffusion的基础上发展而来的。Stable Diffusion使用了LAION-5B数据库的一个子集中的512x512图像来训练Latent Diffusion Model。与Google的Imagen类似，该模型使用了一个冻结的CLIP ViT-L/14文本编码器来根据文本提示对模型进行条件设置。凭借其860M的UNet和123M的文本编码器，该模型相对轻量级，并且可以在至少具有10GB VRAM的GPU上运行。
Stable Diffusion的出现，使得文本到图像的生成变得更加高效和便捷。它不仅能够生成高质量的图像，还能够根据用户的文本提示进行定制化生成，极大地丰富了图像生成的应用场景。
Stable Diffusion Webui为了方便用户使用Stable Diffusion，有开发者为其开发了Web UI界面，即Stable Diffusion Webui。这使得用户无需深入了解算法模型，只需通过简单的界面操作即可实现文本到图像的生成。Stable Diffusion Webui的推出，进一步推动了Stable Diffusion的普及和应用。
总结

Diffusion Model

Latent Diffusion

Stable Diffusion

通过理解这三个概念，我们可以更好地把握Stable Diffusion的本质和优势，从而更好地应用这一技术。

		自动登录	找回密码
密码			立即注册

什么是Stable Diffusion?一文带你区分 Diffusion,Latent Diffusion和S...

大神点评（1）

说点什么

浏览过的版块

神回复