Text-to-3D: Google hat ein neuronales Netzwerk entwickelt, das aus Textbeschreibungen 3D-Modelle generiert
In Kürze
Text-zu-3D Ein neuronales Netzwerk kann 3D-Modelle aus Text generieren
DreamFusion optimiert 3D-Szenen basierend auf Imagen Text-to-Image
Das 2D-Diffusionsmodell kann für die Text-zu-Bild-Synthese verwendet werden
Google hat eine erstellt neuronale Netzwerk in der Lage, 3D-Modelle aus Textbeschreibungen zu erstellen. Das Beste daran ist, dass der schwierigste Aspekt nicht einmal gelehrt werden musste. Imagen wurde als Grundlage für Text-to-3D verwendet.
Was solltest du wissen DreamFusion?
Diffusionsmodelle, die auf Milliarden von Bild-Text-Paaren trainiert wurden, haben zu jüngsten Fortschritten in der Text-zu-Bild-Synthese geführt. Die Anpassung dieses Ansatzes an die 3D-Synthese erfordert umfangreiche Datensätze mit beschrifteten 3D-Assets sowie effiziente Denoising-3D-Datenarchitekturen, von denen keine derzeit verfügbar ist. In diesem Artikel überwinden wir diese Einschränkungen, indem wir eine Text-zu-3D-Synthese mit einem vortrainierten 2D durchführen Text-zu-Bild-Diffusion Modell. Wir stellen einen auf Wahrscheinlichkeitsdichtedestillation basierenden Verlust vor, der es ermöglicht, ein 2D-Diffusionsmodell als Vorstufe für die Optimierung einer Parametergröße zu verwenden Bildgenerator. Unter Verwendung dieses Verlusts optimieren wir mithilfe des Gradientenabstiegs ein zufällig initialisiertes 3D-Modell (ein Neural Radiance Field oder NeRF), sodass seine 2D-Renderings aus zufälligen Winkeln einen minimalen Verlust aufweisen.
Das generierte 3D-Modell des angegebenen Textes kann aus jedem Winkel betrachtet, mit variabler Beleuchtung beleuchtet und in jede 3D-Umgebung zusammengesetzt werden. Seine Methode erfordert keine 3D-Trainingsdaten und keine Änderungen an der Bilddiffusionsmodell, die die Wirksamkeit der Verwendung von vortrainierten Bilddiffusionsmodellen wie zuvor veranschaulicht.
Beispiele für generiertes 3D aus Text
Gegenstände zu einer Szene zusammenfügen
Wie funktioniert es?
DreamFusion optimiert eine 3D-Szene basierend auf einer Beschriftung mithilfe des generativen Text-zu-Bild-Modells Imagen. Es schlägt Score Distillation Sampling (SDS) vor, bei dem eine Verlustfunktion optimiert wird, um Proben aus einem Diffusionsmodell zu erzeugen. Solange wir Bilder anders abbilden können, ermöglicht uns SDS die Optimierung von Proben in jedem Parameterraum, beispielsweise einem 3D-Raum. Zu defiBei dieser differenzierbaren Abbildung wird eine 3D-Szenenparametrisierung verwendet, die Neural Radiance Fields oder NeRFs ähnelt. SDS allein erzeugt ein passables Szenenbild, aber DreamFusion verbessert die Geometrie durch zusätzliche Regularisierer und Optimierungstechniken. Die erzeugten trainierten NeRFs sind kohärent, verfügen über hervorragende Normalen, Oberflächengeometrie und Tiefe und können mithilfe eines Lambertschen Schattierungsmodells neu beleuchtet werden.
Lesen Sie verwandte Artikel:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere ArtikelDamir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.