谷歌通过推出新的文本到视频 AI 生成器 Imagen Video 来克服 Meta
简单来说
谷歌的 Imagen Video 试图帮助视频生成器变成杀手级应用
没过多久,Google 就对 Meta 的 Make-a-Video 做出了回应。 通过使用文本提示, 影像视频 可能会制作精彩的视频。 尽管存在许多缺点,但结果比现有技术有了巨大进步。
与 Facebook 的文本到视频 AI 生成器相比 制作一段视频,结果明显更好。 然而,这一战略也需要更多的监督。 与 Imagen Video 相比,Micro workers 努力用书面描述来注释电影,Make-a-Scene 使用未标记的视频进行训练。
深入了解架构的细节是没有意义的; 你应该在文章中阅读它 点击此处. 我们只能确认 T16 编码器的文本嵌入首先以 5×48 的分辨率以每秒 24 帧的速度生成 3 帧,然后通过多个扩散模型将其放大为 128 帧的最终电影1280×768 和每秒 24 帧。
Imagen视频是什么?
Imagen Video 是一种基于一系列视频扩散模型创建文本条件视频的方法。 Imagen Video 制作高品质影片 文字提示 通过将基本视频制作模型与一系列交错的空间和时间视频超分辨率模型相结合。 回顾团队在将系统扩展为高端系统时所做的设计选择defi文本到视频模型的定义,包括 v 参数化扩散模型的决策以及特定分辨率下全卷积时间和空间超分辨率模型的选择。 此外,它还验证了早期基于扩散的图像生成工作的结果并将其应用到 视频生成。 然后,在无分类器的指导下对视频模型进行渐进式蒸馏,以实现快速、高质量的采样。
谷歌研究团队声称该系统接受文本描述并且 生成一个 16 帧的电影 每秒三帧,分辨率为 24 x 48 像素。 系统缩放并“预测”额外的帧,以每秒 128 帧和 24p 分辨率 (720×1280) 创建具有 768 帧的最终视频。 有 60 万个图像文本对和 14 万个视频文本对用于训练 Imagen Video。
图像视频样本
即使仅仅因为使用 AI 制作视频更快、更便宜,这些技术也无疑会被无处不在。
有兴趣阅读更多吗? 以下是一些要检查的其他主题:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。