ERNIE-ViLG 2.0:百度的新文本到图像模型优于 Dalle-2 和 Stable Diffusion
简单来说
Dalle-2 和 Stable Diffusion 明显优于 ERNIE-ViLG 2.0
厄尼-维尔格 2.0 是一种文本到图像模型,提供比 Dalle-2 更好的性能 Stable Diffusion,目前最流行的两种文本到图像模型。 新模型由百度研究人员团队设计和训练,结果令人惊叹。
结果表明 ERNIE-ViLG 2.0 显着优于 Dalle-2 和 Stable Diffusion。 这是一项重大成就,展示了 ERNIE 框架的强大功能。 这 Metaverse Post 团队将 ERNIE-ViLG 2.0 与 Stable Diffusion 下面:
这些结果有力地支持了 ERNIE-ViLG 2.0 是一种更有效的假设。 文本到图像系统比 Dalle-2 和 Stable Diffusion.
Unet架构来自 Stable Diffusion 以此为基础,但有一些变化:
- 去噪专家的组合: 有 10 个神经网络而不是一个,每个神经网络只负责某些扩散步骤。
- 课文知识: 自动重新加权查询中的单词,使关键字获得更多权重。
- 视觉知识: 在训练过程中,在中间生成结果上检测到物体,并增加了带有物体区域的损失函数的权重。
结果,世界上最大的 文本到图像模型 出来了 24 亿个参数(比 SD 大 10 倍)来训练模型。
提示只是简单地从中文自动翻译成英文 拥抱脸 在被发送到 AI 之前的公开演示。 许多功能由此而来。
- 厄尼不认识国际公众人物。 例如,ERNIE 不认识 Arnold Schwarzenegger。 它在中国当然有当地人的最爱。
- 因此,在提示中使用名人名字的方法可以极大地提高提示的质量。 面孔 将失败。
- 您可能会因为中文翻译而出现一些失真,所以如果您不会说中文,可能会有一些惊喜等着您。
- 它甚至对 Greg Rutkowski 一无所知。
阅读相关文章:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。