新的文本到图像模型 GigaGAN 可以在 4 秒内生成 3.66K 图像
简单来说
研究人员开发了一种名为 GigaGAN 的新文本到图像模型,可以在 4 秒内生成 3.66K 图像。
它基于 GAN(生成对抗网络)框架,这是一种 神经网络 可以学习生成类似于训练数据集的数据。 GigaGAN能够在512秒内生成0.13px的图像,比之前最先进的模型快10倍,并且具有解缠结的、连续的、可控的潜在空间。
它还可用于训练高效、高质量的上采样器。
研究人员开发了一种新的文本到图像模型,称为 千兆GAN 可以产生 4K图片 在 3.66 秒内。 这是对现有文本到图像模型的重大改进,现有文本到图像模型可能需要几分钟甚至几小时才能生成单个图像。
GigaGAN 基于 GAN(生成对抗网络)框架,这是一种神经网络,可以学习生成类似于训练数据集的数据。 GAN 已被用于生成人脸、风景甚至街景图像的逼真图像。
新模型已经在 1 亿张图像的数据集上进行了训练,这比用于训练早期文本到图像模型的数据集大了几个数量级。 因此,GigaGAN 能够在 512 秒内生成 0.13px 的图像,比之前最先进的文本转图像模型快 10 倍以上。
此外,GigaGAN 还带有一个解开的、连续的、可控的潜在空间。 这意味着 GigaGAN 可以生成具有多种不同风格的图像,并且可以在一定程度上控制生成的图像。 例如,GigaGAN 可以生成保留文本输入布局的图像,这对于应用程序很重要,例如,当从文本描述生成产品布局图像时。
GigaGAN 还可用于训练高效、更高质量的上采样器。 这可以应用于真实图像或其他输出 文本到图像模型.
文本编码分支、风格映射网络、多尺度合成网络以及稳定的注意力和自适应内核选择都是 GigaGAN 生成器的一部分。 开发人员通过使用预训练的 CLIP 模型和学习的注意力层 T 提取文本嵌入来开始文本编码分支。类似于 风格,嵌入被传递到风格映射网络 M,生成风格向量 w。 为了生成图像金字塔,合成网络现在使用样式代码作为调制,将文本嵌入作为注意力。 此外,开发人员引入了样本自适应内核选择,以根据输入文本条件自适应地选择卷积核。
鉴别器和生成器一样,有两个分支用于处理图像和文本调节。 文本分支和生成器一样,处理文本。 图像分支被赋予一个图像金字塔,并负责对每个图像尺度进行独立预测。 此外,预测是在所有后续的下采样层尺度上进行的。 额外的损失也被用来鼓励有效的收敛。
如插值网格所示,GigaGAN 允许在提示之间进行平滑插值。 四个角是使用相同的潜在 z 但不同的文本提示创建的。
由于 GigaGAN 保留了一个分离的潜在空间,开发人员可以将一个样本的粗略风格与另一个样本的精细风格结合起来。 GigaGAN 也可以直接用文字提示来控制风格。
阅读更多相关文章:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。