Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
最近的推文 作者发表的一篇题为“Würstchen”(德语“香肠”)的文章引起了爱好者和专家的关注。 该推文分享了使用新的 Würstchen V2 模型生成图像的有趣结果。
Würstchen 快速高效,生成图像的速度比其他模型更快 Stable Diffusion XL 同时使用更少的内存。 它还降低了训练成本,Würstchen v1 在 9,000×512 分辨率下仅需要 512 个 GPU 小时的训练,而在 Stable Diffusion 1.4. 成本降低 16 倍不仅有利于研究人员进行新实验,还为更多组织训练此类模型打开了大门。 Würstchen v2 使用了 24,602 个 GPU 小时,比仅在 6×1.4 下训练的 SD512 便宜 512 倍。
Würstchen V2 是 扩散模型 它在高度压缩的图像潜在空间中工作,将训练和推理的计算成本降低了几个数量级。 它采用新颖的设计,实现了 42 倍的空间压缩,这是以前从未见过的壮举。 Würstchen 采用两级压缩:A 级和 B 级,将压缩图像解码回像素空间。 第三个模型,阶段 C,是在高度压缩的潜在空间中学习的,需要用于当前性能最佳模型的计算的一部分,同时允许更便宜和更快的推理。
Würstchen V2 包含两个扩散阶段:
- A阶段: 该阶段涉及文本条件扩散,并拥有惊人的 1 亿个参数。 这里的加速是通过超高压缩技术实现的。 值得注意的是,Würstchen V128 最初以 128x4x2 的分辨率运行,而不是 SDXL 中所示的 24x24x16 隐藏代码大小。 这意味着更少的像素但更多的通道,从而显着提高速度。
- B阶段: 这是一个配备了600亿个参数的扩散模型,负责将图像从24×24解压到128×128的分辨率。
完成该过程的是一个具有 20 万个参数的解码器,它将隐藏代码转换为渲染图像。
立即脱颖而出的实际优势是 Würstchen V2 的非凡速度。 它的运行速度比 SDXL 快 2-2.5 倍,这是该领域的一项值得注意的进步 人工智能图像生成.
与任何技术创新一样,可能需要权衡取舍。 在图像质量方面,一些专家认为略有损失,但仍需进行全面、诚实的比较以提供具体证据。
生成的文本到图像的示例如下:
阅读更多相关主题:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。