Преобразование текста в 3D: Google разработала нейронную сеть, которая генерирует 3D-модели из текстовых описаний.
Коротко
Преобразование текста в 3D нейронная сеть может генерировать 3D-модели из текста
DreamFusion оптимизирует 3D-сцены на основе преобразования текста в изображение Imagen.
2D-модель диффузии может использоваться для синтеза текста в изображение.
Google создал нейронной сети возможность создания 3D-моделей из текстовых описаний. Самое приятное то, что самому сложному аспекту даже не нужно было учить. Imagen использовался в качестве основы для преобразования текста в 3D.
Что вам следует знать о ДримФьюжн?
Модели распространения, обученные на миллиардах пар изображение-текст, привели к недавним достижениям в синтезе текста-изображения. Адаптация этого подхода к 3D-синтезу потребует крупномасштабных наборов данных помеченных 3D-активов, а также эффективных архитектур 3D-данных с шумоподавлением, ни одна из которых в настоящее время недоступна. В этой статье мы преодолеваем эти ограничения, выполняя синтез текста в 3D с предварительно обученным 2D-модулем. распространение текста в изображение модель. Мы представляем потери, основанные на дистилляции плотности вероятности, которая позволяет использовать двумерную диффузионную модель в качестве априорной для оптимизации параметрической модели. генератор изображений. Используя эту потерю, мы используем градиентный спуск для оптимизации случайно инициализированной 3D-модели (Neural Radiance Field или NeRF), чтобы ее 2D-рендеринг под случайными углами имел минимальные потери.
Сгенерированную 3D-модель указанного текста можно просматривать под любым углом, освещать переменным освещением и компоновать в любой 3D-среде. Его метод не требует данных 3D-обучения и никаких изменений в модель распространения изображений, иллюстрирующий эффективность использования предварительно обученных моделей распространения изображений, как и ранее.
Примеры создания 3D из текста
Соединяем предметы, чтобы создать сцену
Как это работает?
DreamFusion оптимизирует 3D-сцену на основе подписи, используя генеративную модель преобразования текста в изображение Imagen. Он предлагает Score Distillation Sampling (SDS), который включает оптимизацию функции потерь для получения образцов из диффузионной модели. Поскольку мы можем по-разному отображать изображения, SDS позволяет нам оптимизировать выборки в любом пространстве параметров, например в трехмерном пространстве. К defiВ этом дифференцируемом отображении используется параметризация 3D-сцены, аналогичная Neural Radiance Fields или NeRF. Сам по себе SDS создает сносный внешний вид сцены, но DreamFusion улучшает геометрию с помощью дополнительных регуляризаторов и методов оптимизации. Созданные обученные NeRF являются когерентными, имеют отличные нормали, геометрию поверхности и глубину и могут быть повторно освещены с использованием модели затенения Ламберта.
Прочитайте соответствующие статьи:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.