Nachrichtenbericht Technologie
17. November 2022

Nvidia kündigte eDiff-I an: neue generative KI für Text- und Bildsynthese mit sofortiger Übertragung von Stilen

In Kürze

Nvidia bringt eDiff-I auf den Markt, um Unternehmen bei der Erstellung qualitativ hochwertiger, ansprechender Bilder zu unterstützen

Die eDiff-I-Technik erzeugt regelmäßig eine höhere Synthesequalität als DALL-E2 und Stable diffusion

eDiff-I ist ein neues Tool zur Erstellung von KI-Inhalten, das bietet beispiellose Text-zu-Bild-Synthesefähigkeiten für Vermarkter und Unternehmen, wie kürzlich von angekündigt Nvidia. Mit eDiff-I können Unternehmen schnell und einfach hochwertige, ansprechende Grafiken erstellen, ohne dass teure Geräte oder professionelle Hilfe erforderlich sind. eDiff-I verwendet die Verarbeitung natürlicher Sprache (NLP), um die Eingaben des Benutzers zu interpretieren und entsprechende Bilder zu erzeugen. Die KI analysiert dann die Bilder und wählt basierend auf dem Kontext das am besten geeignete aus. Das Ergebnis ist ein qualitativ hochwertiges, professionell aussehendes Bild, das für eine Vielzahl von Zwecken verwendet werden kann, z. B. für Marketingmaterialien, Posts in sozialen Medien, E-Mail-Kampagnen und mehr.

eDiff-I ist ein generative KI der nächsten Generation Tool zur Erstellung von Inhalten, das beispiellose Funktionen bietet Text-zu-Bild Synthese, schnelle Stilübertragung und intuitives Malen mit Worten. Als Diffusionsmodell zum Erstellen von Visuals aus Text schlägt eDiff-I vor, ein Ensemble von Experten-Entrauschungsnetzwerken zu trainieren, die jeweils auf ein bestimmtes Rauschintervall spezialisiert sind, als Reaktion auf die empirische Erkenntnis, dass das Verhalten von Diffusionsmodellen in verschiedenen Phasen des Samplings variiert.

Nvidia kündigte eDiff-I an: neue generative KI für Text- und Bildsynthese mit sofortiger Übertragung von Stilen

Die T5-Texteinbettungen, CLIP-Bildeinbettungen und CLIP-Texteinbettungen bilden die Grundlage für das eDiff-I-Konzept. Diese Methodik kann fotorealistische Grafiken als Antwort auf eine beliebige Textabfrage erzeugen.

Es bietet neben der Text-zu-Bild-Synthese zwei zusätzliche Funktionen: (1) Stilübertragung, mit der wir den Stil des generierten Beispiels mithilfe eines Referenzstilbilds steuern können, und (2) „Paint with Words“, ein Werkzeug mit dem Benutzer Bilder erstellen können, indem sie Segmentierungskarten auf Leinwand malen.

Pipeline
Pipeline

Die Pipeline besteht aus einer Kaskade von drei Diffusionsmodellen: einem Basismodell, das Samples mit einer Auflösung von 64×64 erstellen kann, und zwei Super-Resolution-Stacks, die die Bilder schrittweise auf Auflösungen von 256×256 bzw. 1024×1024 hochsampeln können. Modelle berechnen T5 XXL und die Texteinbettung, nachdem sie eine Beschriftung als Eingabe erhalten haben. Diese Bildeinbettungen können als Stilvektor verwendet werden. Anschließend speisen Sie diese Einbettungen in unsere Kaskade ein Diffusionsmodelle, die nach und nach Bilder mit einer Auflösung von 1024 x 1024 erzeugen.

Der eDiff-I-Ansatz führt durchweg zu einer besseren Synthesequalität im Vergleich zu den Open-Source-Text-zu-Bild-Algorithmen (Stable diffusion) und (DALL-E2).

Die Ergebnisse
Die Ergebnisse

Wenn die CLIP-Bildeinbettungen verwendet werden, erleichtert der eDiff-I-Ansatz die Stilübertragung. eDiff-I extrahiert zuerst die CLIP Bildeinbettungen aus einem Referenzstilbild, das als Stilreferenzvektor verwendet werden kann. Eine stilistische Referenz ist in der Abbildung unten links zu sehen. Die Ergebnisse bei eingeschalteter Stilkonditionierung werden im mittleren Bereich angezeigt. Die Ergebnisse bei ausgeschalteter Stilkonditionierung werden im Bereich rechts angezeigt. Wenn die Stilkonditionierung angewendet wird, erstellt das eDiff-I-Modell Ausgaben, die auch dem Stil der Eingabeunterschrift entsprechen. Wenn die Stilkonditionierung ausgeschaltet ist, werden natürlich wirkende Fotos produziert.

Stilübertragung
Stilübertragung

Indem Benutzer der eDiff-I-Methode Phrasen auswählen und diese auf das Bild kritzeln, können sie die Platzierung von Dingen ändern, die in der Textaufforderung aufgeführt sind. Danach verwendet das Modell die Eingabeaufforderung und die Karten zum Erstellen von Bildern die sowohl mit der Beschriftung als auch mit der Eingabekarte kompatibel sind.

Lesen Sie verwandte Artikel:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories
Abonnieren Sie unseren Newsletter.
Aktuelles

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen

Den Gründern von Samourai Wallet wird vorgeworfen, Darknet-Deals im Wert von 2 Milliarden US-Dollar ermöglicht zu haben

Die Besorgnis der Samourai Wallet-Gründer stellt einen bemerkenswerten Rückschlag für die Branche dar und unterstreicht die anhaltende ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Pantera Capital investiert in die TON-Blockchain und zeigt sich zuversichtlich, dass Telegram das Potenzial hat, die Zugänglichkeit von Kryptowährungen zu erweitern
Geschäft Nachrichtenbericht Technologie
Pantera Capital investiert in die TON-Blockchain und zeigt sich zuversichtlich, dass Telegram das Potenzial hat, die Zugänglichkeit von Kryptowährungen zu erweitern
2. Mai 2024
Mitosis erhält 7 Millionen US-Dollar an Finanzmitteln von der Amber Group und Foresight Ventures, um sein modulares Liquiditätsprotokoll voranzutreiben
Geschäft Nachrichtenbericht Technologie
Mitosis erhält 7 Millionen US-Dollar an Finanzmitteln von der Amber Group und Foresight Ventures, um sein modulares Liquiditätsprotokoll voranzutreiben
2. Mai 2024
Galxe arbeitet mit Jambo zusammen, um die globale Zugänglichkeit zu erweitern Web3
Geschäft Nachrichtenbericht Technologie
Galxe arbeitet mit Jambo zusammen, um die globale Zugänglichkeit zu erweitern Web3
2. Mai 2024
Googles Med-Gemini ist bereit, einen Vorsprung zu verschaffen GPT-4 Mit seiner überlegenen Leistung im Gesundheitswesen
AI Wiki Aktuelles Software Technologie
Googles Med-Gemini ist bereit, einen Vorsprung zu verschaffen GPT-4 Mit seiner überlegenen Leistung im Gesundheitswesen
2. Mai 2024