Text-to-3D: Google ha sviluppato una rete neurale che genera modelli 3D da descrizioni testuali

by Damir Jalalov

Pubblicato: 30 settembre 2022 alle 7:15 Aggiornato: 30 settembre 2022 alle 10:54

In Breve

Da testo a 3D la rete neurale può generare modelli 3D dal testo

DreamFusion ottimizza le scene 3D basate su Imagen text-to-image

Il modello di diffusione 2D può essere utilizzato per la sintesi da testo a immagine

Google ha creato un rete neurale in grado di creare modelli 3D da descrizioni testuali. La parte migliore è che l'aspetto più difficile non aveva nemmeno bisogno di essere insegnato. Imagen è stato utilizzato come base per Text-to-3D.

Text-to-3D: Google ha sviluppato una rete neurale che genera modelli 3D da descrizioni testuali

Cosa dovresti sapere su Fusione dei sogni?

I modelli di diffusione addestrati su miliardi di coppie immagine-testo hanno portato a recenti progressi nella sintesi testo-immagine. L'adattamento di questo approccio alla sintesi 3D richiederà set di dati su larga scala di risorse 3D etichettate e architetture di dati 3D di denoising efficienti, nessuna delle quali è attualmente disponibile. In questo documento, superiamo queste restrizioni eseguendo la sintesi da testo a 3D con un 2D preaddestrato diffusione testo-immagine modello. Presentiamo una perdita basata sulla distillazione della densità di probabilità che consente di utilizzare un modello di diffusione 2D come precedente per l'ottimizzazione di un parametro parametrico generatore di immagini. Utilizzando questa perdita, utilizziamo la discesa del gradiente per ottimizzare un modello 3D inizializzato casualmente (un Neural Radiance Field o NeRF) in modo che i suoi rendering 2D da angoli casuali abbiano una perdita minima.

Il modello 3D generato del testo specificato può essere visualizzato da qualsiasi angolazione, illuminato con illuminazione variabile e composto in qualsiasi ambiente 3D. Il suo metodo non richiede dati di addestramento 3D e nessuna modifica al file modello di diffusione dell'immagine, che illustra l'efficacia dell'utilizzo di modelli di diffusione dell'immagine preaddestrati come prima.

DreamFusion crea modelli 3D illuminabili con aspetto, profondità e normali ad alta fedeltà basati su una didascalia. Gli oggetti sono rappresentati come un campo di radianza neurale, con un pre-addestrato diffusione testo-immagine precedente come Imagen utilizzato.

Esempi di 3D generato da testo

Suggerimento: foto di uno scoiattolo che indossa un'armatura medievale che suona il sassofono

Suggerimento: foto di uno scoiattolo che indossa un elegante abito da ballo seduto a un tornio che modella una ciotola di argilla

Prompt: scultura in metallo altamente dettagliata di uno scoiattolo che indossa una felpa con cappuccio viola in sella a una moto

Prompt: intricata scultura in legno di uno scoiattolo che indossa un'armatura medievale che brandisce una katana

Mettere insieme oggetti per creare una scena

Come funziona?

DreamFusion ottimizza una scena 3D basata su una didascalia utilizzando il modello generativo da testo a immagine Imagen. Suggerisce Score Distillation Sampling (SDS), che implica l'ottimizzazione di una funzione di perdita per produrre campioni da un modello di diffusione. Finché possiamo mappare le immagini in modo diverso, SDS ci consente di ottimizzare i campioni in qualsiasi spazio dei parametri, come uno spazio 3D. A defiIn questa mappatura differenziabile, utilizza una parametrizzazione della scena 3D simile a Neural Radiance Fields o NeRFs. SDS da solo crea un aspetto della scena accettabile, ma DreamFusion migliora la geometria con regolarizzatori extra e tecniche di ottimizzazione. I NeRF addestrati prodotti sono coerenti, hanno normali, geometria della superficie e profondità eccellenti e possono essere riaccesi utilizzando un modello di ombreggiatura lambertiana.

Leggi articoli correlati:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov