30 septembre 2022

Text-to-3D : Google a développé un réseau de neurones qui génère des modèles 3D à partir de descriptions textuelles

Publié : 30 septembre 2022 à 7h15 Mise à jour : 30 septembre 2022 à 10h54

En bref

Texte en 3D le réseau neuronal peut générer des modèles 3D à partir de texte

DreamFusion optimise les scènes 3D basées sur Imagen text-to-image

Le modèle de diffusion 2D peut être utilisé pour la synthèse texte-image

Google a créé un Réseau neuronal capable de créer des modèles 3D à partir de descriptions textuelles. La meilleure partie est que l'aspect le plus difficile n'avait même pas besoin d'être enseigné. Imagen a été utilisé comme base pour Text-to-3D.

Text-to-3D : Google a développé un réseau de neurones qui génère des modèles 3D à partir de descriptions textuelles

Que devez-vous savoir sur RêveFusion?

Les modèles de diffusion formés sur des milliards de paires image-texte ont conduit à des avancées récentes dans la synthèse texte-image. L'adaptation de cette approche à la synthèse 3D nécessitera des ensembles de données à grande échelle d'actifs 3D étiquetés ainsi que des architectures de données 3D de débruitage efficaces, dont aucune n'est actuellement disponible. Dans cet article, nous surmontons ces restrictions en effectuant une synthèse texte-3D avec un 2D pré-entraîné diffusion texte-image modèle. Nous présentons une perte basée sur la distillation de densité de probabilité qui permet d'utiliser un modèle de diffusion 2D comme a priori pour optimiser un modèle paramétrique. générateur d'images. En utilisant cette perte, nous utilisons la descente de gradient pour optimiser un modèle 3D initialisé de manière aléatoire (un champ de radiance neuronale ou NeRF) afin que ses rendus 2D sous des angles aléatoires présentent une perte minimale.

Le modèle 3D généré du texte spécifié peut être visualisé sous n'importe quel angle, éclairé avec un éclairage variable et composé dans n'importe quel environnement 3D. Sa méthode ne nécessite aucune donnée d'entraînement 3D et aucune modification de la modèle de diffusion d'images, illustrant l'efficacité de l'utilisation de modèles de diffusion d'image pré-entraînés comme avant.

DreamFusion crée des modèles 3D rééclairables avec une apparence, une profondeur et des normales haute fidélité basées sur une légende. Les objets sont représentés comme un champ de rayonnement neuronal, avec un pré-formé diffusion texte-image avant comme Imagen utilisé.

Exemples de 3D générée à partir de texte

Invite : photo d'un écureuil portant une armure médiévale jouant du saxophone

Invite : photo d'un écureuil vêtu d'une élégante robe de bal assis à un tour de potier façonnant un bol en argile

Invite : sculpture en métal très détaillée d'un écureuil portant un sweat à capuche violet conduisant une moto

Invite : sculpture en bois complexe d'un écureuil portant une armure médiévale brandissant un katana

Assembler des objets pour créer une scène

Comment cela fonctionne ? 

DreamFusion optimise une scène 3D basée sur une légende à l'aide du modèle génératif texte-image Imagen. Il suggère le Score Distillation Sampling (SDS), qui consiste à optimiser une fonction de perte pour produire des échantillons à partir d’un modèle de diffusion. Tant que nous pouvons cartographier les images différemment, SDS nous permet d'optimiser les échantillons dans n'importe quel espace de paramètres, tel qu'un espace 3D. À defiDans cette cartographie différenciable, il utilise un paramétrage de scène 3D qui s'apparente aux champs de radiance neuronale ou NeRF. SDS crée à lui seul une apparence de scène passable, mais DreamFusion améliore la géométrie avec des régularisateurs et des techniques d'optimisation supplémentaires. Les NeRF formés produits sont cohérents, ont d'excellentes normales, géométrie de surface et profondeur, et peuvent être rallumés à l'aide d'un modèle d'ombrage lambertien.

Lire des articles connexes:

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov