19. September 2023

Würstchen V2-Modell überzeugt Stable Diffusion XL mit beeindruckender Geschwindigkeit zur Generierung hochauflösender Bilder

Veröffentlicht: 19. September 2023 um 3:50 Uhr. Aktualisiert: 19. September 2023 um 4:39 Uhr

Bearbeitet und faktengeprüft: 19. September 2023 um 3:50 Uhr

Ein neuer Tweet Der Artikel des Autors mit dem Titel „Würstchen“ hat die Aufmerksamkeit von Enthusiasten und Experten gleichermaßen auf sich gezogen. Der Tweet teilte die faszinierenden Ergebnisse der Bildgenerierung mit dem neuen Würstchen V2-Modell.

Würstchen V2-Modell überzeugt Stable Diffusion XL mit beeindruckender Geschwindigkeit zur Generierung hochauflösender Bilder

Verbunden: Midjourney 5.2 und Stable Diffusion SDXL 0.9-Updates für die kreative Text-zu-Bild-Generierung

Würstchen ist schnell und effizient und generiert Bilder schneller als Models es mögen Stable Diffusion XL bei geringerem Speicherverbrauch. Es hat auch die Schulungskosten gesenkt, da Würstchen v1 bei einer Auflösung von 9,000 x 512 nur 512 GPU-Stunden für die Schulung erfordert, verglichen mit 150,000 GPU-Stunden, die dafür aufgewendet wurden Stable Diffusion 1.4. Diese 16-fache Kostensenkung kommt nicht nur Forschern zugute, die neue Experimente durchführen, sondern öffnet auch die Tür für mehr Organisationen, solche Modelle zu trainieren. Würstchen v2 verbrauchte 24,602 GPU-Stunden und war damit sechsmal günstiger als SD6, das nur mit 1.4×512 trainiert wurde.

Ein herausragendes Merkmal, das der KI-Community sofort ins Auge fiel, ist die beeindruckende Geschwindigkeit von Würstchen V2. Nach Angaben des Autors dauert die Erstellung von vier 1024×2048-Bildern mit diesem Modell nur 7 Sekunden. Um dies ins rechte Licht zu rücken: Das SDXL-Modell würde für die gleiche Aufgabe vergleichsweise langsame 40 Sekunden benötigen.

Das zuvor eingeführte Würstchen V1 teilt seine Basis mit SDXL als Latent Diffusionsmodell enthält aber eine schnellere Unet-Architektur. Da die Community gespannt auf weitere Details zur Architektur von Würstchen V2 wartet, ist die verbesserte Geschwindigkeit allein schon eine bemerkenswerte Entwicklung.

Würstchen V2 ist ein Diffusionsmodell Dies funktioniert in einem stark komprimierten latenten Bildraum und reduziert den Rechenaufwand für Training und Schlussfolgerung um Größenordnungen. Es verwendet ein neuartiges Design, das eine 42-fache räumliche Komprimierung erreicht, eine bisher nicht dagewesene Leistung. Würstchen verwendet eine zweistufige Komprimierung, Stufe A und Stufe B, die komprimierte Bilder wieder in den Pixelraum dekodiert. Ein drittes Modell, Stufe C, wird im hochkomprimierten latenten Raum erlernt, was einen Bruchteil der Rechenleistung erfordert, die für aktuelle Modelle mit der höchsten Leistung verwendet wird, und gleichzeitig kostengünstigere und schnellere Schlussfolgerungen ermöglicht.

Würstchen V2 besteht aus zwei Diffusionsstufen:

Stufe A: Diese Phase beinhaltet eine textbedingte Diffusion und verfügt über unglaubliche 1 Milliarde Parameter. Die Beschleunigung wird hier durch Ultrahochkompressionstechniken erreicht. Bemerkenswert ist, dass Würstchen V128 anstelle der versteckten Codegröße von 128 x 4 x 2, wie sie in SDXL zu sehen ist, zunächst mit einer Auflösung von 24 x 24 x 16 arbeitet. Das bedeutet weniger Pixel, aber mehr Kanäle, was zu einer deutlichen Geschwindigkeitssteigerung führt.

Stufe B: Dabei handelt es sich um ein Diffusionsmodell, das mit 600 Millionen Parametern ausgestattet ist und für die Dekomprimierung des Bildes von 24×24 auf eine Auflösung von 128×128 verantwortlich ist.

Abgerundet wird der Prozess durch einen Decoder mit 20 Millionen Parametern, der den verborgenen Code in ein gerendertes Bild umwandelt.

Der praktische Nutzen, der sofort ins Auge fällt, ist die bemerkenswerte Geschwindigkeit des Würstchen V2. Es arbeitet mit einer Geschwindigkeit, die 2-2.5-mal schneller ist als SDXL, ein bemerkenswerter Fortschritt auf diesem Gebiet KI-Bilderzeugung.

Wie bei jeder technologischen Innovation kann es zu Kompromissen kommen. Bei der Bildqualität gehen einige Experten von leichten Einbußen aus, wobei ein umfassender und ehrlicher Vergleich mit konkreten Belegen noch aussteht.

Nachfolgend finden Sie Beispiele für generierte Text-zu-Bild-Elemente:

Lesen Sie weitere verwandte Themen:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln

by Alisa Davidson

09. Mai 2024

Aktuelles

Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln

by Alisa Davidson

09. Mai 2024

ZKP-gestütztes Infrastrukturprotokoll ZKBase stellt Roadmap vor und plant Testnet-Start im Mai

by Alisa Davidson

09. Mai 2024

NuLink startet auf Bybit Web3 IDO-Plattform. Abonnementphase verlängert sich bis zum 13. Mai

by Alisa Davidson

09. Mai 2024

UXLINK und Binance arbeiten an einer neuen Kampagne zusammen und bieten Benutzern 20 Millionen UXUY-Punkte und Airdrop Belohnung

by Alisa Davidson

09. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen