Stability AI“ Stable Diffusion 2 算法终于公开:新的 depth2img 模型、超分辨率升级器、无成人内容
简单来说
Stable Diffusion 2.0 模型比以前的模型更快、开源、可扩展、更强大
Stable Diffusion 为 GPU 做好准备,提供实时渲染的新功能
深度引导 stable diffusion 模型 – 图像到图像的创意应用新想法
Stability AI 具有 发布 其博客上有一篇关于 Stable Diffusion 2.其中, Stability AI 提出了一种比以前的算法更高效、更稳健的新算法,同时将其与其他最先进的方法进行基准测试。
CompVis 的原创 Stable Diffusion V1模型 革命性 开源的本质 AI模型 并在世界各地生产了数百种不同的模型和进步。 它是最快达到 10,000 个 Github 星数的项目之一,在不到两个月的时间里达到了 33,000 个,比 Github 上的更多程序都快。
原 Stable Diffusion V1 版本由充满活力的 Robin Rombach 团队领导(Stability AI)和来自慕尼黑大学 CompVis 小组的 Patrick Esser(Runway ML),由 Björn Ommer 教授领导。 他们以实验室之前的 Latent 工作为基础 扩散模型 并得到了 LAION 和 Eleuther AI 的重要支持。
是什么让 Stable Diffusion v1 不同于 Stable Diffusion v2?
Stable Diffusion 2.0 包括许多比以前版本重要的增强功能和功能,让我们来看看它们。
Stable Diffusion 2.0 版本具有强大的文本到图像模型,并使用 LAION 开发的全新文本编码器 (OpenCLIP) 进行训练 Stability AI,这显着提高了质量 生成的图像 超过以前的 V1 版本。 此版本的文本转图像模型可以输出默认分辨率为 512×512 像素和 768×768 像素的图像。
这些模型使用 LAION-5B 数据集的美学子集进行训练,该数据集由 Stability AI的 DeepFloyd 团队,然后使用 LAION 的 NSFW 过滤器进行过滤以排除成人内容。
使用 50 个 DDIM 样本步骤、50 个无分类器指导量表以及 1.5、2.0、3.0、4.0、5.0、6.0、7.0 和 8.0 的评估表明检查点的相对改进:
Stable Diffusion 2.0 现在采用了 Upscaler Diffusion 模型,可将图像分辨率提高四倍。 我们的模型的一个例子 倍增 将低质量生成的图像(128×128)转换为更高分辨率的图像(512×512)如下所示。 Stable Diffusion 2.0 与我们的文本到图像模型结合使用时,现在可以生成分辨率为 2048×2048 或更高的图像。
新的深度引导 stable diffusion 模型,depth2img,以全新的创意可能性扩展了 V1 中先前的图像到图像功能。 Depth2img 确定输入图像的深度(使用现有模型),然后生成新的 图片 基于文本和深度信息。 Depth-to-Image 可以提供大量新的创意应用,提供看起来与原始图像明显不同的变化,同时保持图像的连贯性和深度。
新增功能 Stable Diffusion 2?
- 新的 stable diffusion 模型 提供 768×768 分辨率。
- U-Net 具有与 1.5 版相同数量的参数,但它是从头开始训练的,并使用 OpenCLIP-ViT/H 作为其文本编码器。 所谓的 v 预测模型是 SD 2.0-v。
- 上述模型是从 SD 2.0-base 调整而来的,SD 512-base 也是可用的,并在 512×XNUMX 图像上作为典型的噪声预测模型进行训练。
- 添加了具有 x4 缩放比例的潜在文本引导扩散模型。
- 精致SD 2.0基础深度引导 stable diffusion 模型。 该模型可用于结构保留 img2img 和形状条件合成,并以 MiDaS 推导的单目深度估计为条件。
- 在 SD 2.0 基础上构建的改进的文本引导修复模型。
开发者们辛苦了,就像最初的迭代一样 Stable Diffusion,优化模型以在单个 GPU 上运行 - 他们希望从一开始就让尽可能多的人可以使用它。 他们已经看到了当数百万人掌握这些模型并合作构建绝对非凡的事物时会发生什么。 这就是开源的力量:利用数以百万计的人才的巨大潜力,他们可能没有资源来训练尖端模型,但有能力用一个模型做出令人难以置信的事情。
这个新的更新结合了强大的新功能,如 depth2img 和更好的分辨率升级功能,将作为大量新应用程序的基础,并激发新的创造潜力。
阅读更多关于 Stable Diffusion:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。