30. September 2022

Text-to-3D: Google hat ein neuronales Netzwerk entwickelt, das aus Textbeschreibungen 3D-Modelle generiert

Veröffentlicht: 30. September 2022 um 7:15 Uhr. Aktualisiert: 30. September 2022 um 10:54 Uhr

In Kürze

Text-zu-3D Ein neuronales Netzwerk kann 3D-Modelle aus Text generieren

DreamFusion optimiert 3D-Szenen basierend auf Imagen Text-to-Image

Das 2D-Diffusionsmodell kann für die Text-zu-Bild-Synthese verwendet werden

Google hat eine erstellt neuronale Netzwerk in der Lage, 3D-Modelle aus Textbeschreibungen zu erstellen. Das Beste daran ist, dass der schwierigste Aspekt nicht einmal gelehrt werden musste. Imagen wurde als Grundlage für Text-to-3D verwendet.

Text-to-3D: Google hat ein neuronales Netzwerk entwickelt, das aus Textbeschreibungen 3D-Modelle generiert

Was solltest du wissen DreamFusion?

Diffusionsmodelle, die auf Milliarden von Bild-Text-Paaren trainiert wurden, haben zu jüngsten Fortschritten in der Text-zu-Bild-Synthese geführt. Die Anpassung dieses Ansatzes an die 3D-Synthese erfordert umfangreiche Datensätze mit beschrifteten 3D-Assets sowie effiziente Denoising-3D-Datenarchitekturen, von denen keine derzeit verfügbar ist. In diesem Artikel überwinden wir diese Einschränkungen, indem wir eine Text-zu-3D-Synthese mit einem vortrainierten 2D durchführen Text-zu-Bild-Diffusion Modell. Wir stellen einen auf Wahrscheinlichkeitsdichtedestillation basierenden Verlust vor, der es ermöglicht, ein 2D-Diffusionsmodell als Vorstufe für die Optimierung einer Parametergröße zu verwenden Bildgenerator. Unter Verwendung dieses Verlusts optimieren wir mithilfe des Gradientenabstiegs ein zufällig initialisiertes 3D-Modell (ein Neural Radiance Field oder NeRF), sodass seine 2D-Renderings aus zufälligen Winkeln einen minimalen Verlust aufweisen.

Das generierte 3D-Modell des angegebenen Textes kann aus jedem Winkel betrachtet, mit variabler Beleuchtung beleuchtet und in jede 3D-Umgebung zusammengesetzt werden. Seine Methode erfordert keine 3D-Trainingsdaten und keine Änderungen an der Bilddiffusionsmodell, die die Wirksamkeit der Verwendung von vortrainierten Bilddiffusionsmodellen wie zuvor veranschaulicht.

DreamFusion erstellt basierend auf einer Beschriftung wieder beleuchtbare 3D-Modelle mit originalgetreuem Erscheinungsbild, Tiefe und Normalen. Objekte werden als neuronales Strahlungsfeld mit vorab trainiertem Signal dargestellt Text-zu-Bild-Diffusion Prior wie Imagen verwendet wird.

Beispiele für generiertes 3D aus Text

Aufforderung: Foto eines Eichhörnchens, das eine mittelalterliche Rüstung trägt und Saxophon spielt

Aufforderung: Foto eines Eichhörnchens in einem eleganten Ballkleid, das an einer Töpferscheibe sitzt und eine Tonschale formt

Prompt: Hochdetaillierte Metallskulptur eines Eichhörnchens, das einen lila Hoodie trägt und auf einem Motorrad fährt

Aufforderung: komplizierte Holzschnitzerei eines Eichhörnchens, das eine mittelalterliche Rüstung trägt und ein Katana schwingt

Gegenstände zu einer Szene zusammenfügen

Wie funktioniert es?

DreamFusion optimiert eine 3D-Szene basierend auf einer Beschriftung mithilfe des generativen Text-zu-Bild-Modells Imagen. Es schlägt Score Distillation Sampling (SDS) vor, bei dem eine Verlustfunktion optimiert wird, um Proben aus einem Diffusionsmodell zu erzeugen. Solange wir Bilder anders abbilden können, ermöglicht uns SDS die Optimierung von Proben in jedem Parameterraum, beispielsweise einem 3D-Raum. Zu defiBei dieser differenzierbaren Abbildung wird eine 3D-Szenenparametrisierung verwendet, die Neural Radiance Fields oder NeRFs ähnelt. SDS allein erzeugt ein passables Szenenbild, aber DreamFusion verbessert die Geometrie durch zusätzliche Regularisierer und Optimierungstechniken. Die erzeugten trainierten NeRFs sind kohärent, verfügen über hervorragende Normalen, Oberflächengeometrie und Tiefe und können mithilfe eines Lambertschen Schattierungsmodells neu beleuchtet werden.

Lesen Sie verwandte Artikel:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen