找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

Midjourney和Stable Diffusion的区别

Midjourney和Stable Diffusion的区别
回复

使用道具 举报

大神点评(1)

rpona 昨天 16:21 显示全部楼层
Midjourney和Stable Diffusion在大模型、语义解析、图层和景深表现等方面存在显著差异,具体如下:
大模型
    训练集来源与规模:Midjourney大模型训练集来源不明,ChatGPT无法查询,Claude的解释也真伪难辨。
    Stable Diffusion主要使用LAION收集的图片,1.5版大模型训练数量约23亿张。LAION数据集中,数量最多的图片来自Pinterest(8.5%)和Fine Art America(5.8%),也包含Flickr、500px等UGC网站和123RF、Adobe Stock等专业图库。
    图片质量与学习方式:Stable Diffusion用原始大模型直出图片质量一般,因其完成机器学习后开源,将专家监督学习和反馈强化学习两个环节交给用户训练小模型。
    Midjourney将前三个学习方式封装在大模型里,用户可在http://midjourney.com/app/rank-pairs/对图片排名,获得免费快速GPU时间,补充反馈学习消耗的人力。Midjourney的style of像作弊码一样提升图片质量,可能在偏后步数介入约束扩散。
    审美倾向与内容风格:Midjourney的审美倾向由背后团队筛选,产生内容下限高,平均审美在线。
    Stable Diffusion需要用户主动选择加载lora,用户贡献量大的漫画画风和NSFW更有个性。
z1.jpg

上图为a cute 3d character of a tiger, furry, perfect lighting, soft, unreal engine, fluffy, friendly face, studio light的出图效果
z2.jpg

上图为Stable Diffusion 2.1不加载lora的情况下和Midjourney v5直出四宫格,画面质量差据明显
语义解析
    提示词处理:Stable Diffusion的提示词是单点序列,前后顺序影响生成结果,类似英语句子不通顺时连比划带蹦单词,能猜个大概意思,且需要大量负面提示词筛去低质量图片。
    Midjourney对自然语言处理能力更好,简单句子也能理解,但停留在语意层面,复杂句子会提取关键词,无法像ChatGPT一样理解语旨。
    多主体表现与解决方案:Stable Diffusion和Midjourney对一个画面有两个以上主体时,无法通过语义解析很好表现。Stable Diffusion可通过局部重绘解决。
    图片生成AI语义解析的终局是自然语言流畅处理。
图层和景深
    生成特点与解决方案:扩散式生成图片以物体识别学习生成,画面有强剪影感,无法很好表现复杂层次和景深。
    Stable Diffusion通过主题和背景分层绘制,用关键词分步数介入或插件解决。
    Midjourney学习更多画风,套用艺术家风格和摄影景深关键词,对图层和景深表现更细腻丰富。
    演化结果:Stable Diffusion可能跑出个性和顶点更高的大神,Midjourney可能批量跑出油光水滑的糖水片。
z3.jpg

上图为Stable Diffusion大模型为了提高泛用性,loss值偏高,毛发纹理表现比较刻板
z4.jpg

上图为Stable Diffusion的开源优势也很明显,可以定向训练小模型
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐