Релиз Stable Diffusion 3 провалился: нейросеть рисует монстров вместо людей

新模型生成过程不涉及任何与绘制相关的问题。

来源:安全实验室新闻频道

新的图像生成模型无法应对人类图像。

周三,Stability AI 推出了新版本的图像合成模型 - Stable Diffusion 3 Medium。该模型将文本查询转换为图像,但由于人物图像质量较差,特别是与 Midjourney 和 DALL-E 3 相比,它的出现引起了一波批评。事实证明,SD3 Medium 经常创建解剖学上不正确的图像,这成为了人们嘲笑的理由。

稳定性人工智能 创建

Reddit 上有一个帖子,名为“这一集是个笑话吗? [SD3-2B]”,其中用户分享了 SD3 Medium 在创建人物图像(尤其是手和脚)时失败的示例。

另一个线程讨论了生成躺在草地上的女孩图像的问题。

由于训练数据集中缺乏示例,对于图像生成器来说,生成手一直是一项具有挑战性的任务。现代模型已经学会了如何应对这项任务,但 Stable Diffusion 3 Medium 却退了一步。用户认为SD3 Medium失败的原因是从训练数据中过滤了成人内容。 “严格的模型审查也会删除解剖数据,这就是发生的事情,”一位用户指出。

2022 年稳定扩散 2.0 的发布也出现了同样的问题。然后,过滤成人内容会降低模型生成准确人体解剖结构的能力。 Stability AI 在 SD 2.1 和 SD XL 中修复了这个问题,部分恢复了丢失的能力。

一些用户认为用于清理训练数据的 NSFW 过滤器过于严格。因此,不包含性内容但对于训练模型以正确描绘各种情况下的人很重要的图像可能已从数据集中删除。一位 Reddit 用户写道:“只要画面中没有人,[SD3] 就可以正常工作。看来他们改进的 NSFW 过滤器决定了任何人形生物都是 NSFW。”