谷歌推出创新的生成图像动力学,可在静态图像中模拟动态场景
谷歌推出了一款 生成图像动力学,一种新颖的方法可以实现 将单个静态图像转换为无缝循环视频 或交互式动态场景,提供广泛的实际应用。
这项开创性技术的核心是先于场景动态对图像空间进行建模。 目标是全面了解图像中的对象和元素在经历各种动态交互时的行为方式。 这种理解可以用来有效地模拟对象动态对用户交互的响应。
该技术的主要特点是能够生成无缝循环视频。 通过利用场景动力学之前的图像空间,谷歌的系统可以推断和扩展图像中元素的运动,将其转变为迷人的连续视频循环。 此功能为内容创建者和设计者开辟了许多创意可能性。
该技术使用户能够与静态图像中的对象进行逼真的交互。 通过模拟物体动力学对用户激励的响应,谷歌的系统可以 沉浸式和互动体验 在图像内。 这有可能彻底改变 元宇宙空间 以及用户如何与视觉内容互动。
这项创新的基础在于精心训练的模型。 谷歌的模型从大量运动轨迹数据集中进行学习,这些运动轨迹是从具有自然振荡运动特征的真实视频序列中提取的。 这些序列包括树木摇曳、花朵移动、蜡烛闪烁、衣服在风中飘扬等元素的场景。 这种多样化的数据集使模型能够理解广泛的动态行为。
当出现 单张图片,训练后的模型采用频率协调扩散采样过程。 该过程预测傅里叶域中的每像素长期运动表示,称为神经随机运动纹理。 然后,该表示被转换为跨越整个视频的密集运动轨迹。 与基于图像的渲染模块相结合,这些轨迹可用于各种实际应用。
与原始 RGB 像素的先验相比,运动捕捉的先验更基本、更低维的低维结构,可以有效地解释像素值的变化。 与之前执行的方法相比,这可以实现更连贯的长期生成和对动画更细粒度的控制 图片动画 通过原始视频合成。
生成的运动表示对于许多下游应用程序来说很方便,例如创建无缝循环视频、编辑生成的运动以及启用交互式 动态图像,模拟物体动力学对用户施加的力的响应。
阅读更多相关主题:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。