Nvidia kündigte eDiff-I an: neue generative KI für Text- und Bildsynthese mit sofortiger Übertragung von Stilen
In Kürze
Nvidia bringt eDiff-I auf den Markt, um Unternehmen bei der Erstellung qualitativ hochwertiger, ansprechender Bilder zu unterstützen
Die eDiff-I-Technik erzeugt regelmäßig eine höhere Synthesequalität als DALL-E2 und Stable diffusion
eDiff-I ist ein neues Tool zur Erstellung von KI-Inhalten, das bietet beispiellose Text-zu-Bild-Synthesefähigkeiten für Vermarkter und Unternehmen, wie kürzlich von angekündigt Nvidia. Mit eDiff-I können Unternehmen schnell und einfach hochwertige, ansprechende Grafiken erstellen, ohne dass teure Geräte oder professionelle Hilfe erforderlich sind. eDiff-I verwendet die Verarbeitung natürlicher Sprache (NLP), um die Eingaben des Benutzers zu interpretieren und entsprechende Bilder zu erzeugen. Die KI analysiert dann die Bilder und wählt basierend auf dem Kontext das am besten geeignete aus. Das Ergebnis ist ein qualitativ hochwertiges, professionell aussehendes Bild, das für eine Vielzahl von Zwecken verwendet werden kann, z. B. für Marketingmaterialien, Posts in sozialen Medien, E-Mail-Kampagnen und mehr.
eDiff-I ist ein generative KI der nächsten Generation Tool zur Erstellung von Inhalten, das beispiellose Funktionen bietet Text-zu-Bild Synthese, schnelle Stilübertragung und intuitives Malen mit Worten. Als Diffusionsmodell zum Erstellen von Visuals aus Text schlägt eDiff-I vor, ein Ensemble von Experten-Entrauschungsnetzwerken zu trainieren, die jeweils auf ein bestimmtes Rauschintervall spezialisiert sind, als Reaktion auf die empirische Erkenntnis, dass das Verhalten von Diffusionsmodellen in verschiedenen Phasen des Samplings variiert.
Die T5-Texteinbettungen, CLIP-Bildeinbettungen und CLIP-Texteinbettungen bilden die Grundlage für das eDiff-I-Konzept. Diese Methodik kann fotorealistische Grafiken als Antwort auf eine beliebige Textabfrage erzeugen.
Es bietet neben der Text-zu-Bild-Synthese zwei zusätzliche Funktionen: (1) Stilübertragung, mit der wir den Stil des generierten Beispiels mithilfe eines Referenzstilbilds steuern können, und (2) „Paint with Words“, ein Werkzeug mit dem Benutzer Bilder erstellen können, indem sie Segmentierungskarten auf Leinwand malen.
Die Pipeline besteht aus einer Kaskade von drei Diffusionsmodellen: einem Basismodell, das Samples mit einer Auflösung von 64×64 erstellen kann, und zwei Super-Resolution-Stacks, die die Bilder schrittweise auf Auflösungen von 256×256 bzw. 1024×1024 hochsampeln können. Modelle berechnen T5 XXL und die Texteinbettung, nachdem sie eine Beschriftung als Eingabe erhalten haben. Diese Bildeinbettungen können als Stilvektor verwendet werden. Anschließend speisen Sie diese Einbettungen in unsere Kaskade ein Diffusionsmodelle, die nach und nach Bilder mit einer Auflösung von 1024 x 1024 erzeugen.
Der eDiff-I-Ansatz führt durchweg zu einer besseren Synthesequalität im Vergleich zu den Open-Source-Text-zu-Bild-Algorithmen (Stable diffusion) und (DALL-E2).
Wenn die CLIP-Bildeinbettungen verwendet werden, erleichtert der eDiff-I-Ansatz die Stilübertragung. eDiff-I extrahiert zuerst die CLIP Bildeinbettungen aus einem Referenzstilbild, das als Stilreferenzvektor verwendet werden kann. Eine stilistische Referenz ist in der Abbildung unten links zu sehen. Die Ergebnisse bei eingeschalteter Stilkonditionierung werden im mittleren Bereich angezeigt. Die Ergebnisse bei ausgeschalteter Stilkonditionierung werden im Bereich rechts angezeigt. Wenn die Stilkonditionierung angewendet wird, erstellt das eDiff-I-Modell Ausgaben, die auch dem Stil der Eingabeunterschrift entsprechen. Wenn die Stilkonditionierung ausgeschaltet ist, werden natürlich wirkende Fotos produziert.
Indem Benutzer der eDiff-I-Methode Phrasen auswählen und diese auf das Bild kritzeln, können sie die Platzierung von Dingen ändern, die in der Textaufforderung aufgeführt sind. Danach verwendet das Modell die Eingabeaufforderung und die Karten zum Erstellen von Bildern die sowohl mit der Beschriftung als auch mit der Eingabekarte kompatibel sind.
Lesen Sie verwandte Artikel:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere ArtikelDamir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.