24. Januar 2023

GLIGEN: Neues eingefrorenes Text-zu-Bild-Erzeugungsmodell mit Begrenzungsrahmen

Veröffentlicht: 24. Januar 2023 um 5:00 Uhr. Aktualisiert: 21. März 2024 um 11:40 Uhr

Bearbeitet und faktengeprüft: 24. Januar 2023 um 5:00 Uhr

In Kürze

GLIGEN, oder Grounded-Language-to-Image Generation, ist eine neuartige Technik, die auf den Fähigkeiten aktueller vortrainierter Diffusionsmodelle aufbaut und diese erweitert.

Mit Bedingungseingaben für Bildunterschriften und Begrenzungsrahmen generiert das GLIGEN-Modell Open-World-Grounded-Text2img.

GLIGEN kann eine Vielzahl von Objekten an bestimmten Orten und in bestimmten Stilen generieren, indem es das Wissen aus einem vortrainierten text2img-Modell nutzt.

GLIGEN kann auch menschliche Schlüsselpunkte erden, während es Text-zu-Bilder generiert.

Groß angelegte Text-zu-Bild-Diffusionsmodelle haben einen langen Weg zurückgelegt. Die derzeitige Praxis besteht jedoch darin, sich ausschließlich auf die Texteingabe zu verlassen, was die Kontrollierbarkeit einschränken kann. GLIGEN, oder Grounded-Language-to-Image Generation, ist eine neuartige Technik, die auf den Fähigkeiten aktueller vortrainierter Text-zu-Bild-Diffusionsmodelle aufbaut und diese erweitert, indem sie ermöglicht, dass sie auf Erdungseingaben konditioniert werden.

GLIGEN: Neues eingefrorenes Text-zu-Bild-Erzeugungsmodell mit Begrenzungsrahmen

Um das umfangreiche Konzeptwissen des vortrainierten Modells zu erhalten, frieren die Entwickler alle seine Gewichtungen ein und pumpen die Erdungsinformationen über einen kontrollierten Prozess in neue trainierbare Schichten. Mit Bedingungseingaben für Bildunterschriften und Begrenzungsrahmen generiert das GLIGEN-Modell geerdeten Open-World-Text-zu-Bild, und die Erdungsfähigkeit lässt sich effektiv auf neuartige räumliche Konfigurationen und Konzepte verallgemeinern.

Probieren Sie auch die Demo .

GLIGEN basiert auf bestehenden vortrainierten Diffusionsmodellen, deren ursprüngliche Gewichte eingefroren wurden, um riesige Mengen an vortrainiertem Wissen zu bewahren.

GLIGEN basiert auf bestehenden vortrainierten Diffusionsmodelle, deren ursprüngliche Gewichte eingefroren wurden, um riesige Mengen an vortrainiertem Wissen zu bewahren.
An jedem Transformatorblock wird eine neue trainierbare Gated Self-Attention-Schicht erstellt, um zusätzliche Erdungseingaben zu absorbieren.
Jedes Erdungszeichen hat zwei Arten von Informationen: semantische Informationen über das geerdete Ding (codierter Text oder Bild) und räumliche Positionsinformationen (codierter Begrenzungsrahmen oder Schlüsselpunkte).

In Verbindung stehender Artikel: VToonify: Ein Echtzeit-KI-Modell zur Erstellung künstlerischer Porträtvideos

Neu hinzugefügte modulierte Schichten werden kontinuierlich auf massiven Erdungsdaten (Bild-Text-Box) vortrainiert, was kostengünstiger ist als alternative Methoden zur Verwendung eines vortrainierten Diffusionsmodells, wie z. B. die Feinabstimmung des vollständigen Modells. Ähnlich wie bei Lego können verschiedene trainierte Schichten ein- und ausgesteckt werden, um verschiedene neue Fähigkeiten zu ermöglichen. — Neu hinzugefügte modulierte Ebenen werden kontinuierlich anhand umfangreicher Erdungsdaten (Bild-Text-Box) vorab trainiert. Dies ist kostengünstiger als alternative Methoden zur Verwendung eines vorab trainierten Geräts Diffusionsmodell, wie zum Beispiel die Feinabstimmung des gesamten Modells. Ähnlich wie bei Lego können verschiedene trainierte Schichten ein- und ausgeschaltet werden, um verschiedene neue Funktionen zu ermöglichen.

GLIGEN unterstützt geplantes Sampling im Diffusionsprozess für Inferenz, wobei das Modell dynamisch auswählen kann, ob Erdungstoken (durch Hinzufügen der neuen Schicht) oder das ursprüngliche Diffusionsmodell mit gutem Prior (durch Herauswerfen der neuen Schicht) verwendet werden sollen, um so die Erzeugungsqualität auszugleichen und Erdungsfähigkeit.

GLIGEN kann eine Vielzahl von Objekten an bestimmten Orten und in bestimmten Stilen generieren, indem es das Wissen aus einem vortrainierten text2img-Modell nutzt.

In Verbindung stehender Artikel: Microsoft hat ein Verbreitungsmodell veröffentlicht, das einen 3D-Avatar aus einem einzelnen Foto einer Person erstellen kann

GLIGEN kann auch anhand von Referenzbildern trainiert werden. Die obere Reihe legt nahe, dass Referenzfotos zusätzlich zu schriftlichen Beschreibungen feinkörnigere Merkmale wie Stil und Form des Autos liefern können. Die zweite Reihe zeigt, dass ein Referenzbild auch als Stilbild verwendet werden kann. In diesem Fall stellen wir fest, dass es ausreicht, es in einer Ecke oder Kante eines Bildes zu erden.

GLIGEN kann, wie andere Diffusionsmodelle, geerdete Bildinpaint durchführen, wodurch Objekte erzeugt werden können, die eng mit den bereitgestellten Begrenzungsrahmen übereinstimmen.

GLIGEN kann auch menschliche Schlüsselpunkte erden, während es Text-zu-Bilder generiert. — GLIGEN kann dabei auch menschliche Schlüsselpunkte erden Generieren von Text-zu-Bildern.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen