GLIGEN:新的带边界框的冻结文本到图像生成模型
简单来说
GLIGEN,即基于语言到图像的生成,是一种建立在当前预训练扩散模型的基础上并扩展其功能的新技术。
通过标题和边界框条件输入,GLIGEN 模型生成基于开放世界的 text2img。
GLIGEN 可以利用来自预训练 text2img 模型的知识,在特定位置和样式中生成各种对象。
GLIGEN 还可以在生成文本到图像时确定人类关键点。
大规模的文本到图像扩散模型已经取得了长足的进步。 然而,目前的做法是完全依赖文本输入,这会限制可控性。 格列根,或接地语言到图像生成,是一种新技术,它通过允许它们以接地输入为条件,建立并扩展当前预训练的文本到图像扩散模型的能力。
为了保持预训练模型的广泛概念知识,开发人员冻结了它的所有权重,并通过受控过程将基础信息泵入新的可训练层。 通过标题和边界框条件输入,GLIGEN 模型生成开放世界的接地文本到图像,并且接地能力有效地泛化到新颖的空间配置和概念。
查询 演示 点击此处。
- GLIGEN 基于现有的预训练 扩散模型,其原始权重已被冻结以保留大量预训练知识。
- 在每个变压器块上,都会创建一个新的可训练门控自注意层来吸收额外的接地输入。
- 每个 grounding token 都有两类信息:关于 grounded 事物的语义信息(编码的文本或图像)和空间位置信息(编码的边界框或关键点)。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。