Text-to-3D: Google ha sviluppato una rete neurale che genera modelli 3D da descrizioni testuali
In Breve
Da testo a 3D la rete neurale può generare modelli 3D dal testo
DreamFusion ottimizza le scene 3D basate su Imagen text-to-image
Il modello di diffusione 2D può essere utilizzato per la sintesi da testo a immagine
Google ha creato un rete neurale in grado di creare modelli 3D da descrizioni testuali. La parte migliore è che l'aspetto più difficile non aveva nemmeno bisogno di essere insegnato. Imagen è stato utilizzato come base per Text-to-3D.
Cosa dovresti sapere su Fusione dei sogni?
I modelli di diffusione addestrati su miliardi di coppie immagine-testo hanno portato a recenti progressi nella sintesi testo-immagine. L'adattamento di questo approccio alla sintesi 3D richiederà set di dati su larga scala di risorse 3D etichettate e architetture di dati 3D di denoising efficienti, nessuna delle quali è attualmente disponibile. In questo documento, superiamo queste restrizioni eseguendo la sintesi da testo a 3D con un 2D preaddestrato diffusione testo-immagine modello. Presentiamo una perdita basata sulla distillazione della densità di probabilità che consente di utilizzare un modello di diffusione 2D come precedente per l'ottimizzazione di un parametro parametrico generatore di immagini. Utilizzando questa perdita, utilizziamo la discesa del gradiente per ottimizzare un modello 3D inizializzato casualmente (un Neural Radiance Field o NeRF) in modo che i suoi rendering 2D da angoli casuali abbiano una perdita minima.
Il modello 3D generato del testo specificato può essere visualizzato da qualsiasi angolazione, illuminato con illuminazione variabile e composto in qualsiasi ambiente 3D. Il suo metodo non richiede dati di addestramento 3D e nessuna modifica al file modello di diffusione dell'immagine, che illustra l'efficacia dell'utilizzo di modelli di diffusione dell'immagine preaddestrati come prima.
Esempi di 3D generato da testo
Mettere insieme oggetti per creare una scena
Come funziona?
DreamFusion ottimizza una scena 3D basata su una didascalia utilizzando il modello generativo da testo a immagine Imagen. Suggerisce Score Distillation Sampling (SDS), che implica l'ottimizzazione di una funzione di perdita per produrre campioni da un modello di diffusione. Finché possiamo mappare le immagini in modo diverso, SDS ci consente di ottimizzare i campioni in qualsiasi spazio dei parametri, come uno spazio 3D. A defiIn questa mappatura differenziabile, utilizza una parametrizzazione della scena 3D simile a Neural Radiance Fields o NeRFs. SDS da solo crea un aspetto della scena accettabile, ma DreamFusion migliora la geometria con regolarizzatori extra e tecniche di ottimizzazione. I NeRF addestrati prodotti sono coerenti, hanno normali, geometria della superficie e profondità eccellenti e possono essere riaccesi utilizzando un modello di ombreggiatura lambertiana.
Leggi articoli correlati:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.