Text-to-3D:谷歌开发了一种神经网络,可以根据文本描述生成 3D 模型
简单来说
谷歌创建了一个 神经网络 能够根据文本描述创建 3D 模型。 最好的部分是最困难的方面甚至不需要教。 Imagen 被用作 Text-to-3D 的基础。
你应该知道什么 梦幻融合?
在数十亿个图像-文本对上训练的扩散模型导致了文本到图像合成的最新进展。 将这种方法应用于 3D 合成将需要标记 3D 资产的大规模数据集以及高效的去噪 3D 数据架构,这两者目前都不可用。 在本文中,我们通过使用预训练的 3D 执行文本到 2D 合成来克服这些限制 文本到图像扩散 模型。 我们提出了基于概率密度蒸馏的损失,该损失允许将二维扩散模型用作优化参数的先验 图片生成器。 利用这种损失,我们使用梯度下降来优化随机初始化的 3D 模型(神经辐射场或 NeRF),使其从随机角度进行的 2D 渲染具有最小的损失。
生成的指定文本的 3D 模型可以从任何角度查看,使用可变照明进行照明,并合成到任何 3D 环境中。 它的方法不需要 3D 训练数据,也不需要改变 图像扩散模型,说明使用预先训练的图像扩散模型的功效。
从文本生成 3D 的示例
将物体放在一起形成场景
我们如何运作?
DreamFusion 使用 Imagen 文本到图像生成模型优化基于字幕的 3D 场景。 它建议采用评分蒸馏采样(SDS),其中涉及优化损失函数以从扩散模型中生成样本。 只要我们能够以不同的方式映射回图像,SDS 就使我们能够在任何参数空间(例如 3D 空间)中优化样本。 到 defi在这种可微映射中,它采用类似于神经辐射场或 NeRF 的 3D 场景参数化。 SDS 单独创建了一个还过得去的场景外观,但 DreamFusion 通过额外的正则化器和优化技术增强了几何形状。 生成的经过训练的 NeRF 是连贯的,具有出色的法线、表面几何形状和深度,并且可以使用朗伯着色模型重新照亮。
阅读相关文章:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。