Stability AI公开下一代图像生成模型Stable Cascade,比SDXL更快更好

Stability AI发表新的文字转图像模型

简单来说,Stable Cascade步骤C就是将用户的指令,转换成一张小型且简化的图像草稿,草稿仅包含重要的资讯,接著草稿被输入到步骤A与步骤B,并被加入更多细节并且放大,形成一张详细且高解析度的图片。由于将文字条件生成的步骤C,以及解码到高解析度画素空间的步骤A、B分离,因此便可以单独对步骤C进行额外的训练和微调,包括ControlNets和LoRAs的训练。

官方解释,这与训练一个类似大小的Stable Diffusion模型相比,节省的成本可达16倍。虽然步骤A与步骤B也可以选择性进行微调以获得更多控制,但对大多数用途来说,其带来的额外好处有限,因此用户只要训练步骤C,并且使用原始状态的步骤A和步骤B即可达到良好的成果。

Stability AI发布步骤C和步骤B各两种模型,步骤C具有10亿参数与36亿参数模型,而步骤B有7亿与15亿参数两种模型。官方建议用户使用步骤C的36亿参数模型,以拥有最高品质的输出,而对于追从低硬体要求的用户则可以选择10亿参数版本的模型。至于步骤B的两个模型,都能提供良好的结果,只是15亿参数的模型更擅长重建细节。

由于Stable Cascade的模组化方法,推理使用的显示卡记忆体约只需要20 GB,而使用更小的模型则需要的记忆体量也会降低。

Stable Cascade在与Playground v2、SDXL、SDXL Turbo、Würstchen v2文字转图形生成模型比较,无论是提示词对齐(Prompt Alignment)和美学品质上,Stable Cascade几乎都是表现最佳的模型。而且在推理速度的比较上,即便Stable Cascade最大的模型比Stable Diffusion XL多出14亿参数,仍然具有更快的推理速度。

官方提到,这代表Stable Cascade在架构设计和高度压缩的潜在空间上,都有较好的效率,可以在保持高品质输出的同时,又能维持高效的推理速度。而除了标准文字转图像生成之外,Stable Cascade也具有生成图像变体,还有以图像生成图像的能力。

Stability AI不只发布Stable Cascade,也同时将用于训练、微调、ControlNet和LoRA的所有程式码一并公开,以降低研究人员实验此架构的障碍。