新闻报道 技术
2023 年 9 月 19 日

Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度

最近的推文 作者发表的一篇题​​为“Würstchen”(德语“香肠”)的文章引起了爱好者和专家的关注。 该推文分享了使用新的 Würstchen V2 模型生成图像的有趣结果。

Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
相关: Midjourney 5.2和 Stable Diffusion 用于创意文本到图像生成的 SDXL 0.9 更新

Würstchen 快速高效,生成图像的速度比其他模型更快 Stable Diffusion XL 同时使用更少的内存。 它还降低了训练成本,Würstchen v1 在 9,000×512 分辨率下仅需要 512 个 GPU 小时的训练,而在 Stable Diffusion 1.4. 成本降低 16 倍不仅有利于研究人员进行新实验,还为更多组织训练此类模型打开了大门。 Würstchen v2 使用了 24,602 个 GPU 小时,比仅在 6×1.4 下训练的 SD512 便宜 512 倍。

Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
Würstchen V2 令人印象深刻的速度是立即引起人工智能社区关注的一项突出功能。 据作者介绍,使用该模型生成四张1024×2048图像只需7秒。 从这个角度来看,SDXL 模型需要相对缓慢的 40 秒才能完成相同的任务。

Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
之前介绍过的 Würstchen V1 与 SDXL 共享其基础作为潜在的 扩散模型 但采用了更快的 Unet 架构。 由于社区热切期待 Würstchen V2 架构的更多细节,仅速度的提高就标志着它是一项值得注意的发展。

Würstchen V2 是 扩散模型 它在高度压缩的图像潜在空间中工作,将训练和推理的计算成本降低了几个数量级。 它采用新颖的设计,实现了 42 倍的空间压缩,这是以前从未见过的壮举。 Würstchen 采用两级压缩:A 级和 B 级,将压缩图像解码回像素空间。 第三个模型,阶段 C,是在高度压缩的潜在空间中学习的,需要用于当前性能最佳模型的计算的一部分,同时允许更便宜和更快的推理。

Würstchen V2 包含两个扩散阶段:

  • A阶段: 该阶段涉及文本条件扩散,并拥有惊人的 1 亿个参数。 这里的加速是通过超高压缩技术实现的。 值得注意的是,Würstchen V128 最初以 128x4x2 的分辨率运行,而不是 SDXL 中所示的 24x24x16 隐藏代码大小。 这意味着更少的像素但更多的通道,从而显着提高速度。
  • B阶段: 这是一个配备了600亿个参数的扩散模型,负责将图像从24×24解压到128×128的分辨率。

完成该过程的是一个具有 20 万个参数的解码器,它将隐藏代码转换为渲染图像。

立即脱颖而出的实际优势是 Würstchen V2 的非凡速度。 它的运行速度比 SDXL 快 2-2.5 倍,这是该领域的一项值得注意的进步 人工智能图像生成.

与任何技术创新一样,可能需要权衡取舍。 在图像质量方面,一些专家认为略有损失,但仍需进行全面、诚实的比较以提供具体证据。

生成的文本到图像的示例如下:

Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度
Würstchen V2 型号赢得胜利 Stable Diffusion XL 具有令人印象深刻的生成高分辨率图像的速度

阅读更多相关主题:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories
加入我们的时事通讯。
公司动态

Solana 风暴前的宁静:图表、鲸鱼和链上信号现在在说什么

Solana 表现出色,受到日益普及的采用、机构兴趣和关键合作伙伴关系的推动,但同时也面临着潜在的……

了解更多

2025 年 XNUMX 月加密货币:关键趋势、转变以及未来展望

2025 年 XNUMX 月,加密领域专注于加强核心基础设施,以太坊正在为 Pectra 做准备……

了解更多
阅读更多
了解更多
牛津大学人工智能利用常规CT扫描,在72,000名患者中以86%的准确率检测出早期心力衰竭风险。
检讨 技术
牛津大学人工智能利用常规CT扫描,在72,000名患者中以86%的准确率检测出早期心力衰竭风险。
2026 年 4 月 10 日
Perplexity推出Plaid集成,将其人工智能“计算机”代理转变为个人理财中心
新闻报道 技术
Perplexity推出Plaid集成,将其人工智能“计算机”代理转变为个人理财中心
2026 年 4 月 10 日
DISCO突破酶设计壁垒,创造出自然界中不存在的蛋白质。
检讨 技术
DISCO突破酶设计壁垒,创造出自然界中不存在的蛋白质。
2026 年 4 月 10 日
OKX Ventures 和 HashKey Capital 投资越南 CAEX 交易所,VPBankS 和 LynkiD 也成为其战略合作伙伴。
新闻报道 技术
OKX Ventures 和 HashKey Capital 投资越南 CAEX 交易所,VPBankS 和 LynkiD 也成为其战略合作伙伴。
2026 年 4 月 10 日