找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

什么是Stable Diffusion?一文带你区分 Diffusion,Latent Diffusion和S...

什么是Stable Diffusion?一文带你区分 Diffusion,Latent Diffusion和S...
回复

使用道具 举报

大神点评(1)

Stable Diffusion是一种潜在的文本到图像扩散模型。为了更好地理解Stable Diffusion,我们需要先了解Diffusion Model(扩散模型)和Latent Diffusion(潜在扩散)这两个概念。
Diffusion Model(扩散模型)Diffusion Model是一类生成模型,与VAE(Variational Autoencoder,变分自动编码器)、GAN(Generative Adversarial Network,生成对抗网络)等生成网络不同。Diffusion扩散模型在前向阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声。高斯噪声是一种随机信号,也称为正态分布噪声,其数学模型基于高斯分布的概率密度函数。然后,在逆向阶段,Diffusion Model学习从高斯噪声还原为原始图像的过程。
然而,扩散模型最大的问题是其时间成本和经济成本都极其高昂。这限制了其在实际应用中的广泛推广。
Latent Diffusion(潜在扩散)为了解决扩散模型的成本问题,Latent Diffusion应运而生。Latent Diffusion通过在一个潜在空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。这种方法大大降低了落地门槛,使得文图生成能够在消费级GPU上,在10秒级别的时间内生成图片。潜在扩散模型在生成细节丰富的、具有不同背景的高分辨率图像方面非常稳健,同时还保留了图像的语义结构。因此,潜在扩散模型是图像生成及深度学习领域的一项重大进步。
潜在空间简单的说是对压缩数据的表示。通过降维,我们可以过滤掉一些不太重要的信息,只保留最重要的信息,从而提高生成效率和质量。
Stable DiffusionStable Diffusion就是一种潜在扩散模型,具体来说,是一种潜在的文本到图像扩散模型。它是在Diffusion Model和Latent Diffusion的基础上发展而来的。Stable Diffusion使用了LAION-5B数据库的一个子集中的512x512图像来训练Latent Diffusion Model。与Google的Imagen类似,该模型使用了一个冻结的CLIP ViT-L/14文本编码器来根据文本提示对模型进行条件设置。凭借其860M的UNet和123M的文本编码器,该模型相对轻量级,并且可以在至少具有10GB VRAM的GPU上运行。
Stable Diffusion的出现,使得文本到图像的生成变得更加高效和便捷。它不仅能够生成高质量的图像,还能够根据用户的文本提示进行定制化生成,极大地丰富了图像生成的应用场景。
Stable Diffusion Webui为了方便用户使用Stable Diffusion,有开发者为其开发了Web UI界面,即Stable Diffusion Webui。这使得用户无需深入了解算法模型,只需通过简单的界面操作即可实现文本到图像的生成。Stable Diffusion Webui的推出,进一步推动了Stable Diffusion的普及和应用。
总结
    Diffusion Model:通过逐步施加噪声和还原噪声的过程来生成图像,但成本高昂。Latent Diffusion:在潜在空间中迭代去噪生成图像,大大降低了成本,提高了效率。Stable Diffusion:一种潜在的文本到图像扩散模型,基于Latent Diffusion发展而来,能够高效、便捷地根据文本提示生成高质量图像。
通过理解这三个概念,我们可以更好地把握Stable Diffusion的本质和优势,从而更好地应用这一技术。
z1.jpg
z2.jpg
z3.jpg
z4.jpg
z5.jpg
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐