Rapport de nouvelles Technologie
21 septembre 2023

La version DALL-E 3 amplifie OpenAIL'influence de, départ Midjourney et de Stable Diffusion Derrière

En bref

DALL-E 3 est configuré pour être parfaitement intégré à GPT-4, spécialement conçu pour ChatGPT+ abonnés.

DALL-E 3 s'interdit de recréer des images de personnalités publiques lorsque leurs noms sont explicitement mentionnés.

Le calendrier d’accès au DALL-E 3 est fixé au mois d’octobre.

OpenAI a dévoilé sa dernière création : DALL-E3. Contrairement à ses prédécesseurs, DALL-E 3 se concentre sur le raffinement des détails, en abordant des problèmes tels que le lettrage et les détails complexes du corps, tels que les doigts. Le résultat? Une gamme d’images esthétiques sans avoir recours à des invites ou des solutions de contournement complexes.

La version DALL-E 3 amplifie OpenAIL'influence de, départ Midjourney et de Stable Diffusion Derrière

Il est important de noter que cette version n'est pas accompagnée d'un ensemble complet de détails d'implémentation, d'articles ou d'API. Au lieu de cela, DALL-E 3 devrait être parfaitement intégré à GPT-4, spécialement conçu pour ChatGPT+ abonnés.

Cette évolution ne constitue peut-être pas un changement sismique dans le paysage de l’IA, mais plutôt un pas en avant dans la collaboration entre les modèles. Beaucoup prévoient que le prochain Stable Diffusion modèle offrira encore plus de sophistication et d’attrait artistique.

Pour le mettre en contexte, OpenAILe parcours de à travers la génération d'images IA a été tout un parcours :

  • 2021: DALL-E 1, un modèle de 12 milliards de paramètres, a été introduit avec des informations limitées.
  • 2021: GLIDE, un modèle de 2 milliards de paramètres, a été dévoilé avec des modèles open source de 300 millions de paramètres.
  • 2022: DALL-E 2 est arrivé, doté de 2 milliards de paramètres, accompagné d'un papier unCLIP et d'une API.
  • 2023: DALL-E 3 a fait son entrée, et même si les détails peuvent être quelque peu énigmatiques, une chose est claire : il s'intégrera à GPT-4 en ChatGPT+ abonnés.

Pour l’instant, les visuels de DALL-E 3 restent quelque peu rares. Il n'y a pas de base de code, d'article de blog ou de comparaison détaillée avec l'état de l'art (SOTA). OpenAI semble garder ses cartes près de sa poitrine.

La version DALL-E 3 amplifie OpenAIL'influence de, départ Midjourney et de Stable Diffusion Derrière

Le modèle est censé posséder une compréhension plus profonde des nuances et des détails par rapport à ses prédécesseurs. Cela signifie que traduire vos concepts créatifs en images très précises devrait être un processus plus fluide.

Une promesse intéressante de DALL-E 3 est son intégration avec ChatGPT. Cela implique que les utilisateurs n'auront pas besoin de créer des invites complexes ; une brève description devrait suffire, avec ChatGPT générer habilement des invites détaillées en votre nom.

OpenAI a également souligné l'importance du contexte dans les longues invites. DALL-E 3 est conçu pour adopter la verbosité, le rendant plus adapté au contexte décrit dans des invites détaillées.

Pourtant, comme pour tout nouveau modèle d’IA, il existe une part d’inconnu. Même si les premiers aperçus semblent prometteurs, le véritable test décisif viendra avec une utilisation prolongée. Des questions subsistent quant à son efficacité et sa rapidité de fonctionnement.

Il est probable que DALL-E 3 sera un processus de diffusion en plusieurs étapes, avec GPT-4 servant d'encodeur de texte. Les mécanismes complexes de cette configuration peuvent rester entourés de secret.

Le calendrier d'accès au DALL-E 3 est fixé au mois d'octobre, initialement pour ChatGPT Plus et ChatGPT Utilisateur d'entreprises, avec une possibilité d’accès plus large pour les chercheurs par la suite.

Services Connexes: OpenAI's Altman au Sénat américain pour discuter des risques de l'IA

Nuances et de Censure de DALL-E 3

Les principaux points focaux du développement de DALL-E 3 ont été le processus méticuleux de réduction de ses capacités. Cela impliquait un alignement strict et des filtres conçus pour exclure des types spécifiques de contenu. Par exemple, le modèle refuse catégoriquement de générer des images de personnalités célèbres, de reproduire des œuvres d'art dans le style d'artistes renommés ou de créer tout contenu jugé dangereux par OpenAIdes normes exigeantes. Cette approche stratégique n'est pas seulement une question de limites ; il s'agit d'une mesure proactive visant à protéger l'entreprise contre d'éventuels problèmes juridiques.

Pourtant, au-delà de ces filtres et alignements, des observations intrigantes se font jour. DALL-E 3 semble présenter une certaine faiblesse lorsqu'il s'agit de générer du contenu photoréaliste. Au lieu de produire des images qui imitent parfaitement de vraies photographies, le résultat présente une qualité stylisée distincte. Ces images créées par l’IA dégagent un aspect presque rendu et légèrement plastique. Même lorsqu’on y demande explicitement le mot « photographie », le résultat reste ancré dans sa stylisation caractéristique.

Invite #1
Invite n° 1 : Photographie en gros plan d'un bernard-l'ermite niché dans du sable humide, avec de l'écume de mer à proximité et les détails de sa coquille et la texture du sable accentués.
Invite #2
Invite n°2 : Un canapé jaune vif en forme de banane se trouve dans un salon confortable, sa courbe berçant une pile de coussins colorés. sur le parquet, un tapis à motifs ajoute une touche de charme éclectique et une plante en pot se trouve dans le coin, s'étendant vers la lumière du soleil filtrant à travers la fenêtre.
Invite #3
Invite n°3 : Une photo d’une ancienne épave nichée au fond de l’océan. Les plantes marines ont envahi la structure en bois et les poissons nagent dans et hors de ses espaces creux. Des trésors engloutis et de vieux canons sont disséminés partout, offrant un aperçu du passé.

Il convient de noter que malgré ces particularités, DALL-E 3 offre un aperçu d'un potentiel remarquable. Parmi ses créations, certaines instances présentent une ressemblance frappante avec des photographies. Il convient de garder à l'esprit que le réalisme simulé de ces images ne correspond pas nécessairement à l'apparence d'une véritable photographie du même sujet, surtout si elle est immergée sous l'eau.

Services Connexes: Microsoft a dévoilé Designer, le premier outil professionnel de conversion de texte en image basé sur DALL-E 2

DALL-E 3 Caractéristiques et détails

Prenons un moment pour passer au crible les pixels et lire entre les lignes pour comprendre ce que propose réellement ce nouveau modèle.

L'art de la stylisation: En parcourant OpenAILe compte Instagram de, vous remarquerez une abondance d'œuvres d'art caractérisées par une stylisation exquise. Bien qu'il existe une gamme impressionnante de compositions et de designs abstraits, le modèle semble éviter de produire du contenu photoréaliste. L'accent est ici mis sur l'esthétique et la créativité, et non sur l'imitation de la réalité.

Contraintes artistiques: DALL-E 3 emprunte un chemin différent de son prédécesseur. Il refuse catégoriquement de créer des images dans le style des artistes vivants, ce qui s'écarte radicalement du DALL-E 2, qui pourrait imiter le style de certains artistes. Cela pourrait faire sourciller la communauté créative, à l’instar de l’accueil tiède de Stable Diffusion 2.0.

Donner du pouvoir aux artistes: Dans une démarche de respect des droits des artistes, OpenAI permet aux artistes d'exclure leur travail des futures versions de DALL-E. En soumettant une image dont ils détiennent les droits, les artistes peuvent demander son exclusion de la production du modèle. Les futures itérations de DALL-E éviteront alors de générer du contenu ressemblant au style d'artiste.

Sécurité et censure: OpenAILa paranoïa de la société à propos de la sécurité est palpable. Ils ont collaboré avec des « équipes rouges » externes pour tester la sécurité du modèle et ont utilisé des classificateurs d'entrée pour apprendre au modèle à ignorer les mots spécifiques susceptibles de conduire à un contenu explicite ou nuisible. DALL-E 3 s'abstient de recréer des images de personnalités publiques lorsque leurs noms sont explicitement mentionnés. Il reste incertain si les célébrités entrent dans cette catégorie, ce qui pourrait avoir un impact sur la qualité des visages générés.

Filigranes et suivi: Il y a une allusion à l'intégration de balises pour suivre les « images générées par l'IA », indiquant une évolution vers une meilleure surveillance et potentiellement un filigrane du contenu généré.

Texte et mains améliorés: OpenAI vante une génération de texte et un rendu manuel améliorés, une revendication courante parmi les concurrents. Le véritable test réside dans le résultat réel, au-delà des exemples triés sur le volet.

Compréhension spatiale: DALL-E 3 excelle dans la compréhension des relations spatiales décrites dans les invites. Cela améliore la capacité du modèle à construire des angles et des compositions complexes, même si les utilisateurs attendent des preuves plus concrètes de cette promesse.

Le pouvoir des invites: Le point crucial de DALL-E3 réside dans ses capacités rapides et son intégration avec ChatGPT. Il promet l'automatisation, la rapidité et la simplification de la conception des invites. La tendance ici est vers chatGPT générer des invites, traduisant des idées vagues ou des invites rudimentaires en idées éloquentes. La compréhension contextuelle améliorée de DALL-E 3 rationalise le processus, permettant aux utilisateurs de se concentrer sur l'intention plutôt que sur la verbosité.

Territoires inexplorés: Les aspects tels que l'inpainting, l'outpainting, le remplissage génératif et la modélisation 3D sont particulièrement absents de la discussion. L’absence de ces fonctionnalités pourrait constituer une limitation, notamment pour les utilisateurs habitués à des modèles plus polyvalents.

Détails d'accès: DALL-E 3 devrait devenir disponible pour ChatGPT Clients Plus et Enterprise début octobre. Cependant, les spécificités concernant l'attribution des crédits pour ChatGPT De plus, les utilisateurs et les coûts associés restent flous. L'accès sera fourni via l'API et le OpenAI Plateforme Labs « plus tard à l’automne ».

Prouesses d'intégration: DALL-E devrait être intégré de manière transparente aux produits partenaires et Microsoft. Attendez-vous à assister à la génération de présentations, d'illustrations, de designs, de logos, le tout en contexte et amplifié avec l'aide de ChatGPT. Cette intégration est appelée à devenir courante, posant un défi important aux concurrents comme Google avec son barde et Idéogramme.

La convergence du LLM et du contenu visuel: L'aspect le plus intrigant réside dans la convergence des grands modèles linguistiques (LLM) et des modèles de génération de contenu visuel. Cela signifie le passage d’une ingénierie complexe et rapide à l’expression d’idées dans un langage plus accessible. L’IA glanera le contexte et les idées de ces expressions, offrant ainsi des possibilités créatives auxquelles il est difficile de résister.

Services Connexes: Top 50 des invites de texte à image pour les générateurs d'art AI Midjourney et DALL-E

DALL-E 3 : Soyez un nouveau leader dans la génération d'images IA

OpenAIla décision d'intégrer DALL-E 3 dans le ChatGPT l’écosystème est une démarche stratégique. Cette intégration donne à DALL-E 3 l'accès à une vaste base de données d'utilisateurs de 100 millions d'utilisateurs actifs. Cette étape améliore considérablement l'accessibilité de DALL-E 3 et a le potentiel de catapulter sa popularité.

À l’heure actuelle, Midjourney et de Stable Diffusion se vanter 15 millions d'utilisateurs enregistrés. Cependant, grâce à cette intégration, DALL-E 3 devrait accéder à une base d'utilisateurs dix fois plus grande : 100 millions d'utilisateurs. Cela rend le ChatGPT Abonnement en plus plan d’autant plus attrayant qu’il offre l’accès à un chatbot, à des outils d’analyse et à la génération d’images, le tout à un prix abordable.

L’intégration est non seulement avantageuse pour les utilisateurs existants, mais constitue également un puissant aimant pour les nouveaux utilisateurs. Il élargit le OpenAI la portée et la popularité de l'écosystème, attirant les individus qui recherchent des solutions de contenu généré par l'IA.

Cette décision stratégique est sur le point de stimuler OpenAIles revenus de et d'autres indicateurs clés. Les investisseurs de la société verront probablement cette évolution favorablement, surtout à la lumière de la récente Baisse de 20 % du volume de trafic pendant l'été.

ChatGPT Le trafic Web chute de 20 % en septembre et continue de chuter

Lire d'autres sujets connexes :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

En savoir plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Top 10 des outils d'IA gratuits pour la création de contenu, le montage vidéo et bien plus encore
AI Wiki Digérer Éducation Lifestyle Logiciels Technologie
Top 10 des outils d'IA gratuits pour la création de contenu, le montage vidéo et bien plus encore
14 mai 2024
La Commission des valeurs mobilières de Hong Kong met en garde contre les escroqueries Deepfake ciblant l'industrie de la cryptographie : implications pour la sécurité des investisseurs
Lifestyle Sécurité Wiki Logiciels Histoires et critiques Technologie
La Commission des valeurs mobilières de Hong Kong met en garde contre les escroqueries Deepfake ciblant l'industrie de la cryptographie : implications pour la sécurité des investisseurs
14 mai 2024
Ripple et Evmos collaborent sur le développement de la sidechain XRP Ledger EVM avec la technologie EvmOS
La Brochure Rapport de nouvelles Technologie
Ripple et Evmos collaborent sur le développement de la sidechain XRP Ledger EVM avec la technologie EvmOS
14 mai 2024
5ireChain lance « Testnet Thunder : GA » incitatif pour les tests de résistance du réseau et invite les utilisateurs à participer Airdrop Programme de fidélité
Rapport de nouvelles Technologie
5ireChain lance « Testnet Thunder : GA » incitatif pour les tests de résistance du réseau et invite les utilisateurs à participer Airdrop Programme de fidélité
14 mai 2024
CRYPTOMERIA LABS PTE. LTD.