Nachrichtenbericht
06. November 2022

ERNIE-ViLG 2.0: Das neue Text-zu-Bild-Modell von Baidu übertrifft Dalle-2 und Stable Diffusion

In Kürze

Sowohl Dalle-2 als auch Stable Diffusion wurden von ERNIE-ViLG 2.0 deutlich übertroffen

ERNIE-ViLG 2.0 ist ein Text-zu-Bild-Modell, das eine bessere Leistung als Dalle-2 bietet und Stable Diffusion, zwei der derzeit beliebtesten Text-zu-Bild-Modelle. Das neue Modell wurde von einem Forscherteam aus Baidu entworfen und trainiert, und die Ergebnisse sind atemberaubend.

Das neue Text-zu-Bild-Modell ERNIE-ViLG 2.0 übertrifft Dalle-2 und Stable Diffusion
Das von ERNIE-ViLG 2.0 erstellte Bild

Die Ergebnisse zeigten, dass ERNIE-ViLG 2.0 Dalle-2 und deutlich übertraf Stable Diffusion. Dies ist eine bedeutende Leistung und zeigt die Leistungsfähigkeit des ERNIE-Frameworks. Der Metaverse Post Das Team verglich ERNIE-ViLG 2.0 mit Stable Diffusion unten:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Diese Ergebnisse unterstützen stark die Hypothese, dass ERNIE-ViLG 2.0 effektiver ist Text-zu-Bild-System als Dalle-2 und Stable Diffusion.

Die Unet-Architektur von Stable Diffusion zugrunde gelegt, jedoch mit Änderungen:

  • Eine Mischung aus Denoising-Experten: Es gibt 10 neuronale Netze statt nur einem, wobei jedes nur für bestimmte Diffusionsschritte zuständig ist.
  • Textkenntnisse: Die Wörter in der Abfrage wurden automatisch neu gewichtet, sodass Schlüsselwörter mehr Gewicht erhalten.
  • Visuelles Wissen: Während des Trainings wurden Objekte auf Ergebnissen der Zwischengeneration erkannt, und das Gewicht der Verlustfunktion auf Regionen mit Objekten wurde erhöht.

Als Ergebnis der weltweit größte Text-zu-Bild-Modell kam mit 24 Milliarden Parametern (10 mal größer als SD) heraus, um das Modell zu trainieren.

Im Vergleich zu früheren Modellen übertrifft ERNIE-ViLG 2.0 diese in puncto Bildqualität und Bild-zu-Text-Übereinstimmung bei gleichzeitigem Test auf dem ViLG-300 bilingual deutlich Eingabeaufforderung von einer Person festgelegt.

Eingabeaufforderungen werden im einfach automatisch aus dem Chinesischen ins Englische übersetzt Umarmendes Gesicht öffentliche Demo, bevor sie in die KI gesendet werden. Daraus ergeben sich viele Features.

  • ERNIE kennt keine internationalen Persönlichkeiten des öffentlichen Lebens. ERNIE zum Beispiel kennt Arnold Schwarzenegger nicht. Es hat sicherlich lokale Favoriten in China.
  • Infolgedessen steigert die Methode, Prominentennamen in Aufforderungen zu verwenden, die Qualität erheblich Gesichter fehlschlägt.
  • Aufgrund der Übersetzung aus dem Chinesischen müssen Sie mit einigen Verzerrungen rechnen, sodass Sie einige Überraschungen erwarten können, wenn Sie kein Chinesisch sprechen.
  • Es weiß nicht einmal etwas über Greg Rutkowski.

Lesen Sie verwandte Artikel:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
Geschäft Nachrichtenbericht Technologie
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
3. Mai 2024
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
Märkte Nachrichtenbericht Technologie
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
3. Mai 2024
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
Märkte Nachrichtenbericht Technologie
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
3. Mai 2024
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
Geschäft Nachrichtenbericht Technologie
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
3. Mai 2024