新闻报道 专业技术
2022 年 11 月 23 日

Sber AI 推出了 Kandinsky 2.0,这是第一个用于生成 100 多种语言的文本到图像模型

简单来说

Kandinsky 2.0 是第一个多语言传播模型,由 Sber AI 研究人员在人工智能研究所的研究人员的协助下使用 Sber AI 和 SberDevices 的 1 亿个文本图像对的组合数据集创建和训练

在许多数字图像处理任务中,扩散越来越多地取代 GAN 和自回归模型。 这并不奇怪,因为扩散更容易学习,不需要复杂的超参数选择、最小-最大优化,也不会出现学习不稳定的问题。 最重要的是,扩散模型在几乎所有生成任务上都展示了最先进的结果——通过文本生成图像、声音生成、视频,甚至 3D.

Sber AI 推出了 Kandinsky 2.0,这是第一个用于生成 100 多种语言的文本到图像模型
康定斯基 AI 创建的图像

不幸的是,文本到事物领域的大部分工作只关注英文和中文。 为了纠正这种不公正,Sber AI 决定创建 多语言文本到图像扩散模型 Kandinsky 2.0,它可以理解 100 多种语言的查询。 拥抱脸 已经提供康定斯基 2.0。 来自 SberAI 和 SberDevices 的研究人员已经 合作 与AI人工智能研究所的专家就此项目进行合作。

什么是扩散?

在2015年的文章中 使用非平衡热力学的深度无监督学习, 扩散模型首先被描述为混合物质导致扩散的行为,从而使分布均衡。 正如文章标题所暗示的那样,他们通过热力学的框架来解释扩散模型。

在图像的情况下,这样的过程可能类似于,例如,逐渐从图像中去除高斯噪声。

论文扩散模型 击败 GANs on Image Synthesis,发表于 2021 年,是第一个展示扩散模型优于 GANS 的文章。 作者还设计了第一代控制方法(调节),他们将其命名为分类器指导。 此方法使用来自不同分类器(例如,狗)的梯度创建适合预期类别的对象。 通过涉及归一化系数预测的 Adaptive Group Norm 机制,进行控制本身。

这篇文章可以看作是生成人工智能领域的一个转折点,导致许多人转向扩散研究。 新文章关于 文字转视频, 文本到 3D, 图片 修补, 音频生成, 扩散为 超分辨率,甚至每隔几周就开始出现运动生成。

文本到图像扩散

正如我们之前提到的,降噪和降噪通常是图像模态背景下扩散过程的主要组成部分,因此 UNet 及其许多变体经常被用作基本架构。

文本到图像扩散
文本到图像扩散

在生成过程中必须以某种方式考虑该文本,以便基于它创建图像。 该书的作者 OpenAI 关于 GLIDE 模型的文章建议修改文本的无分类器指导方法。

冻结预照射文本编码器的使用和未来的级联分辨率增强机制大大改善了文本生产(图像). 事实证明,不需要训练文本部分 文本到图像模型 因为使用冻结的 T5-xxl 显着提高了图像质量和文本理解力,并且使用了更少的训练资源。

一位作者 潜在扩散 文章证明图片组件实际上不需要训练(至少不完全)。 如果我们使用强大的图像自动编码器(VQ-VAE 或 KL-VAE)作为视觉解码器并尝试通过扩散而不是图像本身从其潜在空间生成嵌入,学习将进行得更快。 这种方法也是最近发布的基础 Stable Diffusion 模型.

康定斯基 2.0 人工智能模型

通过一些关键改进,Kandinsky 2.0 基于增强的潜在扩散技术(我们不制作图像,而是制作它们的潜在向量):

  • 使用两个多语言文本编码器并连接它们的嵌入。
  • 添加了 UNet(1.2 亿个参数)。
  • 采样过程动态阈值。
康定斯基 2.0 人工智能模型
康定斯基 2.0 人工智能模型

研究人员同时使用了两个多语言编码器——XLMR-clip 和 mT5-small——以便 模型 真的多语言。 因此,除了英语、俄语、法语和德语外,该模型还可以理解蒙古语、希伯来语和波斯语等语言。 人工智能总共知道 101 种语言。 为什么决定同时使用两种模型对文本进行编码? 由于 XLMR-clip 已经看到图片并为各种语言提供紧密嵌入,而 mT5-small 能够理解复杂的文本,因此这些模型具有不同但至关重要的特征。 由于这两个模型只有少量参数(560M 和 146M),正如我们的初步测试所证明的那样,我们决定同时使用两个编码器。

Kandinsky 2.0 AI 模型新生成的图像如下:

康定斯基 2.0 模型训练是如何完成的?

Christofari 超级计算机用于 ML Space 平台上的训练。 它需要 196 张 NVIDIA A100 卡,每张卡具有 80 GB 的 RAM。 完成训练需要 14 天,或 65,856 个 GPU 小时。 分析在 256×256 分辨率下用了五天,然后在 512×512 分辨率下用了六天,然后在最纯净的数据上又用了三天。

作为训练数据,许多数据集被组合在一起,这些数据集已经针对水印、低分辨率和对文本描述的低依从性进行了预过滤,如 CLIP 分数指标所衡量的那样。

多语言生成

Kandinsky 2.0 是第一个从文字创建图像的多语言模型,让我们第一次有机会评估跨语言文化的语言和视觉变化。 将同一查询翻译成多种语言的结果如下所示。 例如,只有白人出现在俄语查询“受过高等教育的人”的生成结果中,而法语翻译“Photo d'une personne diplômée de l'enseignement supérieur”的结果则更加多样化。 我想指出的是,受过高等教育的悲伤的人只出现在俄语版中。

多语言生成
提示:强盗(1. 俄语,2. 英语,3. 印地语)
多语言生成
提示:受过高等教育的人(1.俄语,2.法语,3.中文)
多语言生成
提示:一道国菜(1.俄语,2.日语,3.印地语)

尽管还有大量的尝试,庞大的语言模型和不同的扩散过程计划方法,我们已经可以自信地说,康定斯基 2.0 是第一个完全多语言的传播模型! 在 FusionBrain网站谷歌合作实验室,您可能会看到她的绘画示例。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Galxe 与 Jambo 合作扩大全球可及性 Web3

by 艾丽莎·戴维森
2024 年 5 月 02 日
加入我们的时事通讯。
最新消息

Galxe 与 Jambo 合作扩大全球可及性 Web3

by 艾丽莎·戴维森
2024 年 5 月 02 日

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多

Samourai Wallet 创始人被指控在暗网交易中协助 2 亿美元

Samourai 钱包创始人的被捕对整个行业来说是一个显着的挫折,凸显了持续的......

了解更多
加入我们的创新技术社区
了解更多
查看更多
Eigen 基金会计划在社区批评后向用户额外分发 100 个 EIGEN 代币
市场 新闻报道 专业技术
Eigen 基金会计划在社区批评后向用户额外分发 100 个 EIGEN 代币
2024 年 5 月 3 日
Pantera Capital 投资 TON 区块链,对 Telegram 扩大加密货币可访问性的潜力充满信心
企业 新闻报道 专业技术
Pantera Capital 投资 TON 区块链,对 Telegram 扩大加密货币可访问性的潜力充满信心
2024 年 5 月 2 日
Mitosis 从 Amber Group 和 Foresight Ventures 筹集了 7 万美元资金,以推进其模块化流动性协议
企业 新闻报道 专业技术
Mitosis 从 Amber Group 和 Foresight Ventures 筹集了 7 万美元资金,以推进其模块化流动性协议
2024 年 5 月 2 日
Galxe 与 Jambo 合作扩大全球可及性 Web3
企业 新闻报道 专业技术
Galxe 与 Jambo 合作扩大全球可及性 Web3
2024 年 5 月 2 日