20. März 2023

Neues Text-to-Image-Modell GigaGAN kann 4K-Bilder in 3.66 Sekunden erzeugen

Veröffentlicht: 20. März 2023 um 4:10 Uhr. Aktualisiert: 20. März 2023 um 4:11 Uhr

In Kürze

Forscher haben ein neues Text-to-Image-Modell namens GigaGAN entwickelt, das 4K-Bilder in 3.66 Sekunden erzeugen kann.

Es basiert auf dem GAN-Framework (Generative Adversarial Network), einer Art von neuronale Netzwerk das lernen kann, Daten ähnlich einem Trainingsdatensatz zu generieren. GigaGAN ist in der Lage, 512-Pixel-Bilder in 0.13 Sekunden zu erzeugen, zehnmal schneller als das vorherige hochmoderne Modell, und verfügt über einen entwirrten, kontinuierlichen und kontrollierbaren latenten Raum.

Es kann auch verwendet werden, um einen effizienten Upsampler höherer Qualität zu trainieren.

Forscher haben ein neues Text-to-Image-Modell namens entwickelt GigaGAN das kann erzeugen 4K Bilder in 3.66 Sekunden. Dies ist eine wesentliche Verbesserung gegenüber bestehenden Text-zu-Bild-Modellen, die Minuten oder sogar Stunden dauern können, um ein einzelnes Bild zu erzeugen.

Das neue Text-to-Image-Modell GigaGAN kann 4K-Bilder mit 3.66 s erzeugen

GigaGAN basiert auf dem GAN-Framework (Generative Adversarial Network), einer Art neuronalem Netzwerk, das lernen kann, Daten zu generieren, die einem Trainingsdatensatz ähneln. GANs wurden verwendet, um realistische Bilder von Gesichtern, Landschaften und sogar Street View-Bildern zu erzeugen.

Mehr lesen: 5+ der am meisten erwarteten Text-to-Image-KI-Modelle von 2023

Das neue Modell wurde mit einem Datensatz von 1 Milliarde Bildern trainiert, der um Größenordnungen größer ist als die Datensätze, die zum Trainieren früherer Text-zu-Bild-Modelle verwendet wurden. Infolgedessen ist GigaGAN in der Lage, 512-Pixel-Bilder in 0.13 Sekunden zu generieren, was mehr als zehnmal schneller ist als das vorherige hochmoderne Text-zu-Bild-Modell.

Darüber hinaus verfügt GigaGAN über einen entwirrten, kontinuierlichen und kontrollierbaren latenten Raum. Das bedeutet, dass GigaGAN Bilder mit unterschiedlichen Stilen erzeugen kann und dass die erzeugten Bilder bis zu einem gewissen Grad kontrolliert werden können. GigaGAN kann beispielsweise Bilder erzeugen, die das Layout der Texteingabe erhalten, was für Anwendungen wichtig ist, beispielsweise wenn Bilder von Produktlayouts aus Textbeschreibungen generiert werden.

GigaGAN kann auch zum Trainieren eines effizienten Upsamplers mit höherer Qualität verwendet werden. Dies kann auf reale Bilder oder auf Ausgaben anderer angewendet werden Text-zu-Bild-Modelle.

Ein Textcodierungszweig, ein Style-Mapping-Netzwerk, ein Multiskalen-Synthesenetzwerk sowie stabile Aufmerksamkeit und adaptive Kernelauswahl sind alle Teil des GigaGAN-Generators. Entwickler beginnen den Textcodierungszweig, indem sie Texteinbettungen mit einem vortrainierten CLIP-Modell und erlernten Aufmerksamkeitsschichten extrahieren StilGAN, wird die Einbettung an das Stilabbildungsnetzwerk M weitergegeben, das den Stilvektor w erzeugt. Zur Generierung einer Bildpyramide verwendet das Synthesenetzwerk nun den Stilcode als Modulation und die Texteinbettungen als Aufmerksamkeit. Darüber hinaus führen die Entwickler eine sample-adaptive Kernel-Auswahl ein, um Faltungskerne adaptiv basierend auf der Eingabetextkonditionierung auszuwählen.

Der Diskriminator hat wie der Generator zwei Zweige zur Verarbeitung der Bild- und Textkonditionierung. Der Textzweig verarbeitet wie der Generator Text. Der Bildzweig erhält eine Bildpyramide und wird beauftragt, unabhängige Vorhersagen für jeden Bildmaßstab zu treffen. Darüber hinaus werden Vorhersagen bei allen nachfolgenden Downsampling-Layer-Maßstäben gemacht. Zusätzliche Verluste werden auch verwendet, um eine effektive Konvergenz zu fördern.

Wie im Interpolationsraster gezeigt, ermöglicht GigaGAN eine reibungslose Interpolation zwischen Eingabeaufforderungen. Die vier Ecken werden mit demselben latenten z, aber unterschiedlichen Texteingabeaufforderungen erstellt.

Da GigaGAN einen entwirrten latenten Raum bewahrt, können Entwickler den groben Stil eines Beispiels mit dem feinen Stil eines anderen kombinieren. GigaGAN kann den Stil auch direkt mit Textansagen steuern.

Lesen Sie weitere verwandte Artikel:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.