新闻报道 专业技术
2023 年 1 月 24 日

GLIGEN:新的带边界框的冻结文本到图像生成模型

简单来说

GLIGEN,即基于语言到图像的生成,是一种建立在当前预训练扩散模型的基础上并扩展其功能的新技术。

通过标题和边界框条件输入,GLIGEN 模型生成基于开放世界的 text2img。

GLIGEN 可以利用来自预训练 text2img 模型的知识,在特定位置和样式中生成各种对象。

GLIGEN 还可以在生成文本到图像时确定人类关键点。

大规模的文本到图像扩散模型已经取得了长足的进步。 然而,目前的做法是完全依赖文本输入,这会限制可控性。 格列根,或接地语言到图像生成,是一种新技术,它通过允许它们以接地输入为条件,建立并扩展当前预训练的文本到图像扩散模型的能力。

GLIGEN:新的带边界框的冻结文本到图像生成模型

为了保持预训练模型的广泛概念知识,开发人员冻结了它的所有权重,并通过受控过程将基础信息泵入新的可训练层。 通过标题和边界框条件输入,GLIGEN 模型生成开放世界的接地文本到图像,并且接地能力有效地泛化到新颖的空间配置和概念。

查询 演示 点击此处。

GLIGEN 基于现有的预训练扩散模型,其原始权重已被冻结以保留大量预训练知识。
  • GLIGEN 基于现有的预训练 扩散模型,其原始权重已被冻结以保留大量预训练知识。
  • 在每个变压器块上,都会创建一个新的可训练门控自注意层来吸收额外的接地输入。
  • 每个 grounding token 都有两类信息:关于 grounded 事物的语义信息(编码的文本或图像)和空间位置信息(编码的边界框或关键点)。
相关文章: VToonify:用于生成艺术人像视频的实时 AI 模型
新添加的调制层在大量基础数据(图像文本框)上不断进行预训练,这比使用预训练扩散模型的替代方法(例如全模型微调)更具成本效益。 与乐高积木类似,可以插入和拔出不同的训练层以实现各种新功能。
新添加的调制层在大量接地数据(图像文本框)上不断进行预训练。 这比使用预训练的替代方法更具成本效益 扩散模型,比如全模型微调。 与乐高类似,不同的训练层可以插入和拔出,以实现各种新功能。
GLIGEN支持推理扩散过程中的预定采样,模型可以动态选择使用grounding tokens(通过添加新层)或具有良好先验的原始扩散模型(通过踢出新层),从而平衡生成质量和接地能力。
GLIGEN支持推理扩散过程中的预定采样,模型可以动态选择使用grounding tokens(通过添加新层)或具有良好先验的原始扩散模型(通过踢出新层),从而平衡生成质量和接地能力。
GLIGEN 可以利用来自预训练 text2img 模型的知识,在特定位置和样式中生成各种对象。
GLIGEN 可以利用来自预训练 text2img 模型的知识,在特定位置和样式中生成各种对象。
相关文章: 微软发布了一个扩散模型,可以从一个人的单张照片中构建一个 3D 头像
GLIGEN 也可以使用参考图片进行训练。
GLIGEN 也可以使用参考图片进行训练。 第一行表明,除了书面描述之外,参考照片还可以提供更细粒度的特征,例如汽车的风格和造型。 第二行表明参考图像也可以用作样式图像,在这种情况下,我们发现将其置于图像的角落或边缘就足够了。
GLIGEN 与其他扩散模型一样,可以执行基础图像修复,这可以生成与提供的边界框紧密匹配的对象。
GLIGEN 与其他扩散模型一样,可以执行基础图像修复,这可以生成与提供的边界框紧密匹配的对象。
GLIGEN 还可以在生成文本到图像时确定人类关键点。
GLIGEN 还可以接地人类关键点,同时 生成文本到图像.

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日
加入我们的时事通讯。
最新消息

Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性

by 艾丽莎·戴维森
2024 年 5 月 03 日

Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷

by 艾丽莎·戴维森
2024 年 5 月 03 日

CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励

by 艾丽莎·戴维森
2024 年 5 月 03 日

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
企业 新闻报道 专业技术
Injective 与 AltLayer 联手为 inEVM 带来重新抵押安全性
2024 年 5 月 3 日
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
市场 新闻报道 专业技术
Masa 与 Teller 合作推出 MASA 借贷池,支持 USDC 借贷
2024 年 5 月 3 日
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
市场 新闻报道 专业技术
Velodrome 将在未来几周内推出 Superchain Beta 版本,并在 OP 堆栈第 2 层区块链上进行扩展
2024 年 5 月 3 日
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
企业 新闻报道 专业技术
CARV 宣布与 Aethir 合作,以分散其数据层并分配奖励
2024 年 5 月 3 日