Stable Diffusion XL 1.0版本,江湖传说可以媲美Midjourney。期待已久。
前段时间,XL先后放出泄露版,以及版本号为0.9的测试版, 但是还只能在ComfyUI 中运行,暂不支持stable-diffusion-webui,加上前些日子过于忙碌,一直没有精力折腾。
7月26日,Stability AI在几次跳票后,终于发布了Stable Diffusion XL 1.0版本,相比于之前的0.9版本,它在颜色、对比度、阴影和光照方面有了明显的改进,同时也能够生成更高分辨率(1M像素)和更多纵横比的图像。Stable Diffusion XL 1.0还支持图像修复、扩展和变换等功能,以及在图像中生成文本的能力。
AUTOMATIC1111 也快速跟进,升级到了1.5版,终于支持XL 模型。而秋叶大佬的启动器也同步更新,今天赶上周末,总算有点时间可以折腾下Stable diffusion,下载模型,升级启动器,一切简单而顺利,没有学习成本。
但是生成图片的时候,总是在最后一刻崩掉,变成了马赛克效果。无奈,只能去网上查找问题,看了一些网友的讨论,感觉是没有安装对应的VAE模型的缘故。
我一直没搞清楚VAE模型到底什么意思,有什么作用,趁这个问题,问了下New Bing,下面是它给我的答案:
VAE是变分自编码器的缩写,它是神经网络模型的一部分,它可以将图像编码和解码到和从一个较小的隐空间,从而加快计算速度。 VAE是Stable Diffusion 1.4或1.5模型的一个部分更新,它可以使眼睛的渲染更好。
老实说,还没没搞懂,不知所云,我怀疑Bing找的资料不对,人啊,还是不能过于依赖AI。不过,先不管了,我下载VAE,问题解决。
为了检验XL的能力是否被夸大,我让他生成了一组人物肖像进行测试。提示词如下,
[Name]Socrates, (looking at viewer:1.2), perfect face,busy street scene, bright daylight,
怎么说呢,在人物肖像上,特别是名人的肖像,感觉比起Midjourney,还有巨大的提升空间啊。希望后续借助各种LorA模型,可以超越Midjourney。
苏格拉底 Socrates
亚里士多德 Aristotle
康德 Immanuel Kant
笛卡尔 Rene Descartes
尼采 Friedrich Nietzsche
马克思 Karl Marx
伊本·西那 Avicenna
休谟 David Hume
海德格尔 Martin Heidegger
维特根斯坦 Ludwig Wittgenstein
Upvoted! Thank you for supporting witness @jswit.
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
都是哲学家啊!
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit