La version DALL-E 3 amplifie OpenAIL'influence de, départ Midjourney et Stable Diffusion Derrière
En bref
DALL-E 3 est configuré pour être parfaitement intégré à GPT-4, spécialement conçu pour ChatGPT+ abonnés.
DALL-E 3 s'interdit de recréer des images de personnalités publiques lorsque leurs noms sont explicitement mentionnés.
Le calendrier d’accès au DALL-E 3 est fixé au mois d’octobre.
OpenAI a dévoilé sa dernière création : DALL-E3. Contrairement à ses prédécesseurs, DALL-E 3 se concentre sur le raffinement des détails, en abordant des problèmes tels que le lettrage et les détails complexes du corps, tels que les doigts. Le résultat? Une gamme d’images esthétiques sans avoir recours à des invites ou des solutions de contournement complexes.
Il est important de noter que cette version n'est pas accompagnée d'un ensemble complet de détails d'implémentation, d'articles ou d'API. Au lieu de cela, DALL-E 3 devrait être parfaitement intégré à GPT-4, spécialement conçu pour ChatGPT+ abonnés.
Cette évolution ne constitue peut-être pas un changement sismique dans le paysage de l’IA, mais plutôt un pas en avant dans la collaboration entre les modèles. Beaucoup prévoient que le prochain Stable Diffusion modèle offrira encore plus de sophistication et d’attrait artistique.
Pour le mettre en contexte, OpenAILe parcours de à travers la génération d'images IA a été tout un parcours :
- 2021: DALL-E 1, un modèle de 12 milliards de paramètres, a été introduit avec des informations limitées.
- 2021: GLIDE, un modèle de 2 milliards de paramètres, a été dévoilé avec des modèles open source de 300 millions de paramètres.
- 2022: DALL-E 2 est arrivé, doté de 2 milliards de paramètres, accompagné d'un papier unCLIP et d'une API.
- 2023: DALL-E 3 a fait son entrée, et même si les détails peuvent être quelque peu énigmatiques, une chose est claire : il s'intégrera à GPT-4 pour ChatGPT+ abonnés.
Pour l’instant, les visuels de DALL-E 3 restent quelque peu rares. Il n'y a pas de base de code, d'article de blog ou de comparaison détaillée avec l'état de l'art (SOTA). OpenAI semble garder ses cartes près de sa poitrine.
Le modèle est censé posséder une compréhension plus profonde des nuances et des détails par rapport à ses prédécesseurs. Cela signifie que traduire vos concepts créatifs en images très précises devrait être un processus plus fluide.
Une promesse intéressante de DALL-E 3 est son intégration avec ChatGPT. Cela implique que les utilisateurs n'auront pas besoin de créer des invites complexes ; une brève description devrait suffire, avec ChatGPT générer habilement des invites détaillées en votre nom.
OpenAI a également souligné l'importance du contexte dans les longues invites. DALL-E 3 est conçu pour adopter la verbosité, le rendant plus adapté au contexte décrit dans des invites détaillées.
Pourtant, comme pour tout nouveau modèle d’IA, il existe une part d’inconnu. Même si les premiers aperçus semblent prometteurs, le véritable test décisif viendra avec une utilisation prolongée. Des questions subsistent quant à son efficacité et sa rapidité de fonctionnement.
Il est probable que DALL-E 3 sera un processus de diffusion en plusieurs étapes, avec GPT-4 servant d'encodeur de texte. Les mécanismes complexes de cette configuration peuvent rester entourés de secret.
Le calendrier d'accès au DALL-E 3 est fixé au mois d'octobre, initialement pour ChatGPT Plus et ChatGPT Utilisateur d'entreprises, avec une possibilité d’accès plus large pour les chercheurs par la suite.
Services Connexes: OpenAI's Altman au Sénat américain pour discuter des risques de l'IA |
Nuances et Censure de DALL-E 3
Les principaux points focaux du développement de DALL-E 3 ont été le processus méticuleux de réduction de ses capacités. Cela impliquait un alignement strict et des filtres conçus pour exclure des types spécifiques de contenu. Par exemple, le modèle refuse catégoriquement de générer des images de personnalités célèbres, de reproduire des œuvres d'art dans le style d'artistes renommés ou de créer tout contenu jugé dangereux par OpenAIdes normes exigeantes. Cette approche stratégique n'est pas seulement une question de limites ; il s'agit d'une mesure proactive visant à protéger l'entreprise contre d'éventuels problèmes juridiques.
Pourtant, au-delà de ces filtres et alignements, des observations intrigantes se font jour. DALL-E 3 semble présenter une certaine faiblesse lorsqu'il s'agit de générer du contenu photoréaliste. Au lieu de produire des images qui imitent parfaitement de vraies photographies, le résultat présente une qualité stylisée distincte. Ces images créées par l’IA dégagent un aspect presque rendu et légèrement plastique. Même lorsqu’on y demande explicitement le mot « photographie », le résultat reste ancré dans sa stylisation caractéristique.
Il convient de noter que malgré ces particularités, DALL-E 3 offre un aperçu d'un potentiel remarquable. Parmi ses créations, certaines instances présentent une ressemblance frappante avec des photographies. Il convient de garder à l'esprit que le réalisme simulé de ces images ne correspond pas nécessairement à l'apparence d'une véritable photographie du même sujet, surtout si elle est immergée sous l'eau.
Services Connexes: Microsoft a dévoilé Designer, le premier outil professionnel de conversion de texte en image basé sur DALL-E 2 |
DALL-E 3 Caractéristiques et détails
Prenons un moment pour passer au crible les pixels et lire entre les lignes pour comprendre ce que propose réellement ce nouveau modèle.
L'art de la stylisation: En parcourant OpenAILe compte Instagram de, vous remarquerez une abondance d'œuvres d'art caractérisées par une stylisation exquise. Bien qu'il existe une gamme impressionnante de compositions et de designs abstraits, le modèle semble éviter de produire du contenu photoréaliste. L'accent est ici mis sur l'esthétique et la créativité, et non sur l'imitation de la réalité.
Contraintes artistiques: DALL-E 3 emprunte un chemin différent de son prédécesseur. Il refuse catégoriquement de créer des images dans le style des artistes vivants, ce qui s'écarte radicalement du DALL-E 2, qui pourrait imiter le style de certains artistes. Cela pourrait faire sourciller la communauté créative, à l’instar de l’accueil tiède de Stable Diffusion 2.0.
Donner du pouvoir aux artistes: Dans une démarche de respect des droits des artistes, OpenAI permet aux artistes d'exclure leur travail des futures versions de DALL-E. En soumettant une image dont ils détiennent les droits, les artistes peuvent demander son exclusion de la production du modèle. Les futures itérations de DALL-E éviteront alors de générer du contenu ressemblant au style d'artiste.
Sécurité et censure: OpenAILa paranoïa de la société à propos de la sécurité est palpable. Ils ont collaboré avec des « équipes rouges » externes pour tester la sécurité du modèle et ont utilisé des classificateurs d'entrée pour apprendre au modèle à ignorer les mots spécifiques susceptibles de conduire à un contenu explicite ou nuisible. DALL-E 3 s'abstient de recréer des images de personnalités publiques lorsque leurs noms sont explicitement mentionnés. Il reste incertain si les célébrités entrent dans cette catégorie, ce qui pourrait avoir un impact sur la qualité des visages générés.
Filigranes et suivi: Il y a une allusion à l'intégration de balises pour suivre les « images générées par l'IA », indiquant une évolution vers une meilleure surveillance et potentiellement un filigrane du contenu généré.
Texte et mains améliorés: OpenAI vante une génération de texte et un rendu manuel améliorés, une revendication courante parmi les concurrents. Le véritable test réside dans le résultat réel, au-delà des exemples triés sur le volet.
Compréhension spatiale: DALL-E 3 excelle dans la compréhension des relations spatiales décrites dans les invites. Cela améliore la capacité du modèle à construire des angles et des compositions complexes, même si les utilisateurs attendent des preuves plus concrètes de cette promesse.
Le pouvoir des invites: Le point crucial de DALL-E3 réside dans ses capacités rapides et son intégration avec ChatGPT. Il promet l'automatisation, la rapidité et la simplification de la conception des invites. La tendance ici est vers chatGPT générer des invites, traduisant des idées vagues ou des invites rudimentaires en idées éloquentes. La compréhension contextuelle améliorée de DALL-E 3 rationalise le processus, permettant aux utilisateurs de se concentrer sur l'intention plutôt que sur la verbosité.
Territoires inexplorés: Les aspects tels que l'inpainting, l'outpainting, le remplissage génératif et la modélisation 3D sont particulièrement absents de la discussion. L’absence de ces fonctionnalités pourrait constituer une limitation, notamment pour les utilisateurs habitués à des modèles plus polyvalents.
Détails d'accès: DALL-E 3 devrait devenir disponible pour ChatGPT Clients Plus et Enterprise début octobre. Cependant, les spécificités concernant l'attribution des crédits pour ChatGPT De plus, les utilisateurs et les coûts associés restent flous. L'accès sera fourni via l'API et le OpenAI Plateforme Labs « plus tard à l’automne ».
Prouesses d'intégration: DALL-E devrait être intégré de manière transparente aux produits partenaires et Microsoft. Attendez-vous à assister à la génération de présentations, d'illustrations, de designs, de logos, le tout en contexte et amplifié avec l'aide de ChatGPT. Cette intégration est appelée à devenir courante, posant un défi important aux concurrents comme Google avec son barde et Idéogramme.
La convergence du LLM et du contenu visuel: L'aspect le plus intrigant réside dans la convergence des grands modèles linguistiques (LLM) et des modèles de génération de contenu visuel. Cela signifie le passage d’une ingénierie complexe et rapide à l’expression d’idées dans un langage plus accessible. L’IA glanera le contexte et les idées de ces expressions, offrant ainsi des possibilités créatives auxquelles il est difficile de résister.
Services Connexes: Top 50 des invites de texte à image pour les générateurs d'art AI Midjourney et DALL-E |
DALL-E 3 : Soyez un nouveau leader dans la génération d'images IA
OpenAIla décision d'intégrer DALL-E 3 dans le ChatGPT l’écosystème est une démarche stratégique. Cette intégration donne à DALL-E 3 l'accès à une vaste base de données d'utilisateurs de 100 millions d'utilisateurs actifs. Cette étape améliore considérablement l'accessibilité de DALL-E 3 et a le potentiel de catapulter sa popularité.
À l’heure actuelle, Midjourney et Stable Diffusion se vanter 15 millions d'utilisateurs enregistrés. Cependant, grâce à cette intégration, DALL-E 3 devrait accéder à une base d'utilisateurs dix fois plus grande : 100 millions d'utilisateurs. Cela rend le ChatGPT Abonnement en plus plan d’autant plus attrayant qu’il offre l’accès à un chatbot, à des outils d’analyse et à la génération d’images, le tout à un prix abordable.
L’intégration est non seulement avantageuse pour les utilisateurs existants, mais constitue également un puissant aimant pour les nouveaux utilisateurs. Il élargit le OpenAI la portée et la popularité de l'écosystème, attirant les individus qui recherchent des solutions de contenu généré par l'IA.
Cette décision stratégique est sur le point de stimuler OpenAIles revenus de et d'autres indicateurs clés. Les investisseurs de la société verront probablement cette évolution favorablement, surtout à la lumière de la récente Baisse de 20 % du volume de trafic pendant l'été.
Lire d'autres sujets connexes :
Avertissement :
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.