Nachrichtenbericht Technologie
21. September 2023

DALL-E 3 Release verstärkt OpenAI's Einfluss, Weggehen Midjourney und Stable Diffusion Hinter

In Kürze

DALL-E 3 soll nahtlos integriert werden GPT-4, speziell zugeschnitten für ChatGPT+ Abonnenten.

DALL-E 3 verzichtet darauf, Bilder von Persönlichkeiten des öffentlichen Lebens nachzubilden, wenn deren Namen ausdrücklich erwähnt werden.

Der Zeitplan für den Zugriff auf DALL-E 3 ist für Oktober festgelegt.

OpenAI hat seine neueste Kreation vorgestellt: DALL-E3. Im Gegensatz zu seinen Vorgängern konzentriert sich DALL-E 3 auf die Verfeinerung der Details und geht auf Themen wie Beschriftungen und komplizierte Körperdetails wie Finger ein. Das Ergebnis? Eine Reihe ästhetisch ansprechender Bilder, ohne dass komplexe Eingabeaufforderungen oder Problemumgehungen erforderlich sind.

DALL-E 3 Release verstärkt OpenAI's Einfluss, Weggehen Midjourney und Stable Diffusion Hinter

Es ist wichtig zu beachten, dass diese Version keine umfassenden Implementierungsdetails, Artikel oder APIs enthält. Stattdessen soll DALL-E 3 nahtlos integriert werden GPT-4, speziell zugeschnitten für ChatGPT+ Abonnenten.

Diese Entwicklung stellt möglicherweise keine seismische Veränderung in der KI-Landschaft dar, sondern vielmehr einen Fortschritt in der Zusammenarbeit zwischen Modellen. Viele rechnen mit dem nächsten Stable Diffusion Modell wird noch mehr Raffinesse und künstlerischen Reiz bieten.

Um es in einen Kontext zu setzen, OpenAI's Reise durch die KI-Bildgenerierung war eine ziemliche Reise:

  • 2021: DALL-E 1, ein Modell mit 12 Milliarden Parametern, wurde mit begrenzten Informationen eingeführt.
  • 2021: GLIDE, ein 2-Milliarden-Parameter-Modell, wurde zusammen mit Open-Source-Modellen mit 300 Millionen Parametern vorgestellt.
  • 2022: DALL-E 2 ist angekommen, mit 2 Milliarden Parametern, begleitet von einem UnCLIP-Papier und einer API.
  • 2023: DALL-E 3 hat seinen Einzug gehalten, und obwohl die Details etwas kryptisch sein mögen, ist eines klar: Es wird integriert GPT-4 für ChatGPT+ Abonnenten.

Derzeit sind die Bilder von DALL-E 3 noch etwas spärlich. Es gibt keine Codebasis, keinen Blogbeitrag oder detaillierten Vergleich mit dem Stand der Technik (SOTA). OpenAI scheint ihre Karten nicht in der Hand zu behalten.

DALL-E 3 Release verstärkt OpenAI's Einfluss, Weggehen Midjourney und Stable Diffusion Hinter

Es wird angepriesen, dass das Modell im Vergleich zu seinen Vorgängern über ein tieferes Verständnis für Nuancen und Details verfügt. Dies bedeutet, dass die Umsetzung Ihrer kreativen Konzepte in hochpräzise Bilder voraussichtlich reibungsloser ablaufen wird.

Ein faszinierendes Versprechen von DALL-E 3 ist seine Integration mit ChatGPT. Dies bedeutet, dass sich Benutzer nicht mit der Erstellung komplizierter Eingabeaufforderungen herumschlagen müssen; eine kurze Beschreibung sollte ausreichen, mit ChatGPT Wir erstellen in Ihrem Namen geschickt detaillierte Eingabeaufforderungen.

OpenAI hat auch die Bedeutung des Kontexts in langen Eingabeaufforderungen betont. DALL-E 3 ist auf Ausführlichkeit ausgelegt, sodass es besser auf den in ausführlichen Eingabeaufforderungen beschriebenen Kontext abgestimmt ist.

Doch wie bei jedem neuen KI-Modell gibt es ein Element des Unbekannten. Während die ersten Einblicke vielversprechend aussehen, wird der wahre Lackmustest mit der längeren Nutzung einhergehen. Es bleiben Fragen zur Effizienz und Betriebsgeschwindigkeit bestehen.

Es ist wahrscheinlich, dass DALL-E 3 ein mehrstufiger Diffusionsprozess sein wird GPT-4 dient als Text-Encoder. Die komplizierten Mechanismen dieses Aufbaus bleiben möglicherweise geheim.

Der Zeitplan für den Zugriff auf DALL-E 3 ist zunächst für Oktober festgelegt ChatGPT Plus und ChatGPT Unternehmensbenutzers, mit der Möglichkeit eines breiteren Zugangs für Forscher danach.

Verbunden: OpenAI's Altman im US-Senat, um die Risiken von KI zu diskutieren

Abschattung und Zensur von DALL-E 3

Der Hauptschwerpunkt bei der Entwicklung von DALL-E 3 war der sorgfältige Prozess der Einschränkung seiner Fähigkeiten. Dies erforderte eine strenge Ausrichtung und Filter, die bestimmte Arten von Inhalten ausschließen sollten. Das Model weigert sich beispielsweise strikt, Bilder berühmter Persönlichkeiten zu erstellen, Kunstwerke im Stil renommierter Künstler nachzubilden oder Inhalte zu erstellen, die von ihm als unsicher erachtet werden OpenAI's anspruchsvolle Standards. Bei diesem strategischen Ansatz geht es nicht nur um Einschränkungen; Dabei handelt es sich um eine proaktive Maßnahme, die darauf abzielt, das Unternehmen vor möglichen rechtlichen Verstrickungen zu schützen.

Doch jenseits dieser Filter und Ausrichtungen kommen einige interessante Beobachtungen zutage. Eine gewisse Schwäche scheint DALL-E 3 bei der Generierung fotorealistischer Inhalte aufzuweisen. Anstatt Bilder zu erzeugen, die echte Fotos perfekt nachahmen, weist die Ausgabe eine deutlich stilisierte Qualität auf. Diese KI-gefertigten Bilder wirken fast gerendert und leicht plastisch. Auch bei expliziter Aufforderung mit dem Wort „Foto“ bleibt das Ergebnis in seiner charakteristischen Stilisierung verankert.

Aufforderung Nr. 1
Hinweis Nr. 1: Nahaufnahme eines Einsiedlerkrebses, eingebettet in nassen Sand, mit Meeresschaum in der Nähe und hervorgehobenen Details seines Panzers und der Textur des Sandes.
Aufforderung Nr. 2
Hinweis Nr. 2: In einem gemütlichen Wohnzimmer steht ein leuchtend gelbes, bananenförmiges Sofa, auf dessen Rundung ein Stapel bunter Kissen liegt. Auf dem Holzboden verleiht ein gemusterter Teppich einen Hauch von eklektischem Charme, und in der Ecke steht eine Topfpflanze, die in Richtung des Sonnenlichts streckt, das durch das Fenster fällt.
Aufforderung Nr. 3
Hinweis Nr. 3: Ein Foto eines alten Schiffswracks auf dem Meeresboden. Meerespflanzen haben die Holzkonstruktion beansprucht und Fische schwimmen in den Hohlräumen hinein und aus ihnen heraus. Versunkene Schätze und alte Kanonen sind überall verstreut und geben einen Einblick in die Vergangenheit.

Es ist erwähnenswert, dass DALL-E 3 trotz dieser Eigenheiten einen Vorgeschmack auf bemerkenswertes Potenzial bietet. Unter seinen Kreationen weisen einige Exemplare eine verblüffende Ähnlichkeit mit Fotografien auf. Bedenken Sie, dass der simulierte Realismus dieser Bilder nicht unbedingt mit dem Aussehen eines echten Fotos desselben Motivs übereinstimmt, insbesondere wenn es unter Wasser liegt.

Verbunden: Microsoft stellte Designer vor, das erste professionelle Text-to-Image-Tool auf Basis von DALL-E 2

DALL-E 3 Funktionen und Details

Nehmen wir uns einen Moment Zeit, um die Pixel zu durchforsten und zwischen den Zeilen zu lesen, um zu verstehen, was dieses neue Modell wirklich bietet.

Die Kunst der Stilisierung: Durchblickend OpenAIInstagram-Account von, werden Sie eine Fülle an Kunstwerken bemerken, die sich durch exquisite Stilisierung auszeichnen. Obwohl es eine beeindruckende Auswahl an abstrakten Kompositionen und Designs gibt, scheint das Modell auf die Produktion fotorealistischer Inhalte zu verzichten. Der Schwerpunkt liegt hier auf Ästhetik und Kreativität, nicht auf der Nachahmung der Realität.

Künstlerische Zwänge: DALL-E 3 geht einen anderen Weg als sein Vorgänger. Es weigert sich strikt, Bilder im Stil lebender Künstler zu schaffen, eine deutliche Abkehr von DALL-E 2, das den Stil bestimmter Künstler imitieren könnte. Dies könnte in der kreativen Gemeinschaft für Aufsehen sorgen, ähnlich wie die lauwarme Aufnahme von Stable Diffusion 2.0

Künstler stärken: Um die Rechte der Künstler zu respektieren, OpenAI ermöglicht es Künstlern, ihre Werke aus zukünftigen DALL-E-Versionen auszuschließen. Indem sie ein Bild einreichen, an dem sie die Rechte besitzen, können Künstler beantragen, dass es von der Produktion des Modells ausgeschlossen wird. Zukünftige Iterationen von DALL-E werden dann die Generierung von Inhalten vermeiden, die dem ähneln Stil des Künstlers.

Sicherheit und Zensur: OpenAIDie Sicherheitsparanoia ist spürbar. Sie haben mit externen „Red Teams“ zusammengearbeitet, um die Sicherheit des Modells zu testen, und Eingabeklassifikatoren eingesetzt, um dem Modell beizubringen, bestimmte Wörter zu ignorieren, die zu expliziten oder schädlichen Inhalten führen könnten. DALL-E 3 verzichtet darauf, Bilder von neu zu erstellen Persönlichkeiten des öffentlichen Lebens wenn ihre Namen ausdrücklich genannt werden. Ob Prominente in diese Kategorie fallen, bleibt ungewiss, was möglicherweise Auswirkungen auf die Qualität der generierten Gesichter hat.

Wasserzeichen und Tracking: Es gibt einen Hinweis auf die Einbettung von Tags zur Verfolgung „KI-generierter Bilder“, was auf eine Entwicklung hin zu einer besseren Überwachung und möglicherweise dem Versehen generierter Inhalte mit Wasserzeichen hindeutet.

Text und Hände verbessert: OpenAI wirbt für eine verbesserte Textgenerierung und Handwiedergabe, eine häufige Behauptung unter Mitbewerbern. Der eigentliche Test liegt in der tatsächlichen Ausgabe jenseits ausgewählter Beispiele.

Räumliches Verständnis: DALL-E 3 zeichnet sich durch das Verständnis räumlicher Beziehungen aus, die in Eingabeaufforderungen beschrieben werden. Dies verbessert die Fähigkeit des Modells, komplexe Winkel und Kompositionen zu konstruieren, obwohl Benutzer auf konkretere Beweise für dieses Versprechen warten.

Die Macht der Aufforderungen: Der Kern von DALL-E3 liegt in seiner schnellen Leistungsfähigkeit und Integration mit ChatGPT. Es verspricht Automatisierung, Geschwindigkeit und Vereinfachung des Prompt-Designs. Der Trend geht hier in Richtung chatGPT Eingabeaufforderungen generieren, vage Ideen oder rudimentäre Aufforderungen in beredte übersetzen. Das verbesserte Kontextverständnis von DALL-E 3 rationalisiert den Prozess und ermöglicht es Benutzern, sich auf die Absicht statt auf die Ausführlichkeit zu konzentrieren.

Unbekannte Gebiete: Bemerkenswerterweise fehlen in der Diskussion Aspekte wie Inpainting, Outpainting, generatives Füllen und 3D-Modellierung. Das Fehlen dieser Funktionen könnte eine Einschränkung darstellen, insbesondere für Benutzer, die an vielseitigere Modelle gewöhnt sind.

Zugriffsdetails: DALL-E 3 soll verfügbar sein ChatGPT Plus- und Enterprise-Kunden Anfang Oktober. Allerdings sind die Einzelheiten bezüglich der Vergabe von Credits für ChatGPT Plus-Nutzer und die damit verbundenen Kosten bleiben unklar. Der Zugriff erfolgt über die API und die OpenAI Labs-Plattform „später im Herbst“.

Integrationsfähigkeit: DALL-E soll nahtlos in Partner- und Microsoft-Produkte integriert werden. Erwarten Sie, Zeuge der Erstellung von Präsentationen, Illustrationen, Designs und Logos zu werden, alles im Kontext und erweitert mit der Unterstützung von ChatGPT. Diese Integration dürfte zum Mainstream werden und stellt für Wettbewerber eine erhebliche Herausforderung dar Google mit seinem Barden und Ideogramm.

Die Konvergenz von LLM und visuellen Inhalten: Der faszinierendste Aspekt liegt in der Konvergenz von Large Language Models (LLMs) und Modellen zur Generierung visueller Inhalte. Es bedeutet einen Wandel vom komplexen Prompt-Engineering hin zum Ausdruck von Ideen in einer verständlicheren Sprache. Die KI wird aus diesen Ausdrücken Kontext und Ideen gewinnen und so kreative Möglichkeiten bieten, denen man nur schwer widerstehen kann.

Verbunden: Die 50 besten Text-zu-Bild-Eingabeaufforderungen für KI-Kunstgeneratoren Midjourney und DALL-E

DALL-E 3: Seien Sie ein neuer Marktführer in der KI-Bildgenerierung

OpenAIDie Entscheidung, DALL-E 3 in die zu integrieren ChatGPT Ökosystem ist ein strategischer Schachzug. Diese Integration gewährt DALL-E 3 Zugriff auf eine riesige Benutzerdatenbank mit 100 Millionen aktiven Benutzern. Dieser Schritt verbessert die Zugänglichkeit von DALL-E 3 erheblich und hat das Potenzial, seine Popularität zu steigern.

Derzeit Midjourney und Stable Diffusion prahlen herum 15 Millionen registrierte Benutzer. Mit dieser Integration wird DALL-E 3 jedoch Zugang zu einer zehnmal größeren Benutzerbasis erhalten – 100 Millionen Benutzern. Das macht das ChatGPT Plus-Abo Der Plan ist umso attraktiver, da er Zugang zu einem Chatbot, Analysetools und Bildgenerierung zu einem erschwinglichen Preis bietet.

Die Integration ist nicht nur für bestehende Nutzer von Vorteil, sondern wirkt auch als starker Magnet für neue Nutzer. Es erweitert die OpenAI Die Reichweite und Beliebtheit des Ökosystems nimmt zu und zieht Personen an, die nach Lösungen für KI-generierte Inhalte suchen.

Dieser strategische Schritt dürfte Auftrieb geben OpenAIUmsatz und andere wichtige Kennzahlen. Die Investoren des Unternehmens werden diese Entwicklung wahrscheinlich positiv bewerten, insbesondere im Hinblick auf die jüngste Entwicklung 20 % Rückgang des Verkehrsaufkommens während des Sommers.

ChatGPT Der Web-Traffic geht im September um 20 % zurück und sinkt weiter

Lesen Sie weitere verwandte Themen:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories
Abonnieren Sie unseren Newsletter.
Aktuelles

Von Ripple zum Big Green DAO: Wie Kryptowährungsprojekte zur Wohltätigkeit beitragen

Lassen Sie uns Initiativen erkunden, die das Potenzial digitaler Währungen für wohltätige Zwecke nutzen.

Weitere Informationen

AlphaFold 3, Med-Gemini und andere: Die Art und Weise, wie KI das Gesundheitswesen im Jahr 2024 verändert

KI manifestiert sich im Gesundheitswesen auf verschiedene Weise, von der Aufdeckung neuer genetischer Zusammenhänge bis hin zur Stärkung robotergestützter chirurgischer Systeme ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Binance führt neuen Funding Rate Arbitrage-Bot ein und führt Spot-Copy-Trading für alle Benutzer ein
Märkte Nachrichtenbericht Technologie
Binance führt neuen Funding Rate Arbitrage-Bot ein und führt Spot-Copy-Trading für alle Benutzer ein
15. Mai 2024
Apeiron kündigt das „Apeiron Guild Wars 2024“-Turnier mit einem Preispool von 1 Million US-Dollar an und freut sich über die Teilnahme von Web3 Gemeinschaft und etablierte Gilden
Lifestyle Nachrichtenbericht Technologie
Apeiron kündigt das „Apeiron Guild Wars 2024“-Turnier mit einem Preispool von 1 Million US-Dollar an und freut sich über die Teilnahme von Web3 Gemeinschaft und etablierte Gilden
15. Mai 2024
Lens-Protokoll zur Einführung eines hybriden und modularen Infrastruktur-Linsennetzwerks, basierend auf ZK Stack
Nachrichtenbericht Technologie
Lens-Protokoll zur Einführung eines hybriden und modularen Infrastruktur-Linsennetzwerks, basierend auf ZK Stack
15. Mai 2024
BitSmiley wird im Merlin-Chain-Mainnet eingesetzt und führt ein „Liquiditätszuschussprogramm“ für die Merlin-Chain-Community ein, um die Liquidität zu stärken
Märkte Nachrichtenbericht Technologie
BitSmiley wird im Merlin-Chain-Mainnet eingesetzt und führt ein „Liquiditätszuschussprogramm“ für die Merlin-Chain-Community ein, um die Liquidität zu stärken
15. Mai 2024