Stable Cascade
如果你想要使用本章的工作流,可以使用下载使用 Comflowy 本地版,或者注册使用 Comflowy 云端版本 (opens in a new tab),里面都内置了本章的工作流。并且如果你使用的是云端版本,你可以直接使用我们内置的模型,无需下载。
模型介绍
这是由 Stability AI 推出的全新文生图模型,它使用的是 Würstchen 架构,与 Stable Diffusion 模型最大的不同在于它的潜空间更小。Stable Diffusion 模型的潜空间压缩系数是 8,Stable Cascade 的压缩系数是 42,这就意味着原来 1024 X 1024 的图片会被编码为 24 X 24,这样的好处就是生图速度更快,训练模型的成本也更低。与 SD 1.5 相比,Stable Cascade 的成本降低了 16 倍。
此外,这种模型与现有的多种技术兼容,比如 finetuning, LoRA, ControlNet, IP-Adapter, LCM 等等。
根据 Stability AI 的评估,Stable Cascade 在指令对齐和美学质量上的表现也比之前要好:
跟 Midjourney 的对比
但各位可能会好奇,这个模型跟 Midjourney 比起来又会怎样呢?我们一起来对比一下。我在 Midjourney 的用户社区随机找了几个 prompt,并分别输入到 Midjourney 和 Stable Cascade 模型中。 考虑到 Midjourney 一次生成 4 张图,我也将 batch size 设置为 4,这样我们就能对比两个模型的生成成本了。
Prompt 1
a painting of cotton tree, in the style of light gray, dansaekhwa, in the style of light gray and light brown, li shuxing, naoko takeuchi, subtle atmospheric perspective, elegant simplicity, flowing draperies, watercolors
首先,在 Prompt 中有提到两个主体,一个是棉树,一个是窗帘(放在了 prompt 靠后的位置)。风格是中式的水墨画,颜色是浅灰和浅棕。 我个人认为在 Prompt Alignment 上,Stable Cascade 的表现要好于 Midjourney,因为它的生成结果更加符合 Prompt 的要求。
但如果说美感的话,这个就要看个人的喜好了。我个人认为 Midjourney 呈现的图更多元一些,而 Stable Cascade 的图感觉相对来说比较一致,比如树枝的形状都比较像。
Prompt 2
24s young Asian female traveller, smiling, long black curly hair, Wearing a white top with light green lining, wearing a yellow backpack, denim trousers, victory gesture, and blue canvas shoes, Gaze into the camera, full body, Portrait full length photo, Ultra HD graphics style, Wide angle visual for banners or advertisements, clean background
接着我们再来看看人像,整体来看,因为 Prompt 写得比第一个好,所以 Midjounrey 和 Stable Cascade 在 Prompt 的理解上都比较准确,但细看人物的脸你会发现 Stable Cascade 生成的脸有点变形。
Prompt 3
fat cute fluffy tortoiseshell cat with a belly, funny facial expressions, Exaggerated action, 3D character, white background, a little hairy, elongated shape, cartoon style, minimalism
再来看看一个卡通风格的 Prompt,两方的效果接近。如果一定要选一个,我个人会更喜欢 Midjourney 的结果。
总结
除了以上三个 Prompt 外,我还测试了多个 Prompt。我主观认为在 Prompt Alignment 上,Stable Cascade 的表现要好于 Midjourney,但在美感上,Midjourney 的表现要好于 Stable Cascade。
不过我觉得单纯美学的比较是相对主观的,所以各位还是需要自己尝试一下。
最后,我还想说下在这个对比中,大家可能忽略的东西:
- Stable Cascade 的生成速度要快于 Midjourney(特别是你的显卡比较好的情况下)。如果你真的想将 AI 用于工作,生图的速度真的很影响你的工作效率。
- Stable Cascade 还有一个优势是依托庞大的开源生态,让你获得 Midjourney 没有的能力,比如 IPAdapter 和 ControlNet。
Stable Cascade Workflow
首先你需要在这里 (opens in a new tab)下载 Stable Cascade 的模型。注意需要下载 stage b 和 stage c 然后将它们放到 models/checkpoints 目录下。
然后,你可能还需要升级一下你的 ComfyUI,确保你的 ComfyUI 是最新的版本。另外,如果你如果觉得搭建 workflow 比较困难,也可以尝试使用我们开发的 ComflowySpace,里面会内置这个 workflow 模板。
调整 Default workflow
首先,你需要打开 ComfyUI 的 Default workflow,然后将它的 Empty Latent Image 节点调整为 StableCascade_EmptyLatentImage。 你会发现这个节点比原来的节点多了一个 compression,这个就是前面提到的潜空间压缩系数,我们将其设置为 42 即可。 然后将 checkpoint 节点的模型换成下载好的 stage c 模型。注意是 C。
添加节点
然后再添加一个 Checkpoint、KSampler 节点,以及 StableCascade_StageB_Conditioning 节点,然后在第二个 Checkpoint 节点中选择 stage b 模型。连接好的 workflow 是这样的: