Octubre 02, 2023

Dall-E 3 vs. Midjourney: Una gran comparació dels generadors d'art d'IA més avançats

Publicat: 02 d'octubre de 2023 a les 2:52 Actualitzat: 03 d'octubre de 2023 a les 3:11

Editat i verificat: 02 d'octubre de 2023 a les 2:52

Uneix-te a nosaltres en aquest emocionant viatge mentre explorem Dall-E 3 i Midjourneysubtileses, complexitats i potencial sense explotar. Aquest article destaca les comparacions més intrigants basades en la investigació realitzada per l'entusiasta de la IA Atachkina; si estàs interessat en aprendre més, fes clic a enllaç.

Dall-E 3 vs. Midjourney: Una gran comparació dels generadors d'art d'IA més avançats

Consells Pro
1. Descobriu el Els 50 principals missatges de text a imatge per a AI Art Generators Midjourney i DALL-E.
2. Enceneu la vostra creativitat amb el Els 20 millors generadors d'art de text a imatge d'IA de 2023.

Aquest article proporciona un missatge de text a imatge, una imatge que mostra els resultats de Dall-E 3 i Midjourney, i una explicació de les diferències entre ambdós generadors d'art. Anem a començar.

prompte: un astronauta es troba a Júpiter i observa la sortida del sol. interfície futurista, perspectiva en primera persona, comandant espacial, pluviòmetre i interfície d'usuari HUD Rise

Ambdues xarxes neuronals van tenir un rendiment admirable en aquest cas, amb el Midjourney superant lleugerament els altres.

prompte: fotografiat per Slim Aarons de Wonder Woman a l'habitació, capes i textures complexes, disseny detallat de personatges, fons amb escenes brillants, capritxoses i acolorides, correcció de colors pastel com les pel·lícules de Wes Anderson, gra de pel·lícula i Tokina AT-X 11-16 mm f /2.8 pro dx ii

Dall-E 3 va fer una feina molt pitjor aquí; va obtenir els colors brillants dels estils, però no la claredat dels detalls; al fons van aparèixer cossos deformats i les cares no van tenir gens d'èxit.

prompte: imatge d'un bressol maco i grassonet a la seva residència en línia

prompte: fotografia d'estudi comercial professional per a Nike; model amb els cabells llargs; tir de cos sencer; amb samarreta Nike beix; jaqueta de mezclilla Nike inusual; bossa Nike de peluix beix suau; sabatilles d'esport Nike morades suaus; de peu sobre fons rosa-blau clar; fons futurista d'una forma aerodinàmica complexa amb llum de fons; rodada amb Hasselblad X1D;

Van resultar interessants els dos llocs, però Dall-E 3 va tornar a lluitar amb les cares. En lloc d'això, va fer una bossa beix de peluix tal com s'indica a la indicació i Midjourney ho va ignorar. En aquest cas, Dall-E 3 va ser molt obedient a l'hora de dur a terme la indicació.

sol·licitud: figura de bombolla amb traçat de raigs en colors pastel, escultura femenina amb acabats metàl·lics, brillant/brillant, turbulència vibrant, nucli de colom, postures poc convencionals, art anamòrfic, iridescència/opalescència, bucles de retroalimentació de vídeo, ulls brillants, corbes atrevides, brillant, figuratisme fluid

prompte: un collage retro vintage de superherois, com Wonder Woman, Capità Amèrica, Batman i The Joker

I una vegada més, mentre que ambdues graelles fan collages excel·lents, Dall-E 3 és més fidel a la indicació; va afegir només els herois que vam especificar, no es podia convertir en un bromista i va creuar el capità amb Batman.

sol·licitud: taca de traçat de raigs metàl·lics, art anamòrfic, detall atractiu, línies precises, corbes atrevides, brillant, figuratisme fluid, colors pastís, fons fosc

indicació: hi ha capes i textures senzilles, disseny de personatges complexos, fons vius, capritxosos i acolorits, correcció de colors pastel a la pel·lícula de Wes Anderson, gra de pel·lícula i una lent Tokina at-x 11-16 mm f/2.8 pro dx ii. en aquesta imatge de Spider-Man relaxant-se en un sofà feta per Slim Aarons.

Midjourney va poder combinar els estils respectius dels dos artistes des del missatge, mentre que Dall-E 3 només va afegir molts detalls ocupats i colors brillants al fons.

prompte: es va fer una fotografia dels anys 80 de gats grassos i simpàtics que participaven en una classe d'aeròbic mentre portaven divertides polaines de lleopard i bodys rosats amb Kodak Gold 200.

Una vegada més, els gats estan en plena forma i ambdues xarxes neuronals comprenen perfectament les càmeres de pel·lícula. Tanmateix, Dall-E 3 fins i tot afegeix gra a les imatges.

La dècada de 1990, Leonardo DiCaprio interpreta un mestre Jedi en una casa rural russa mentre empunya un sabre làser i porta un jersei verd de punt.

Dall-E 3 va crear un jove Leonardo DiCaprio amb unes textures de pont genials, va afegir gra de pel·lícula i un esquema de color i va reflectir molt fredament la sensació d'una casa rural russa. Midjourney va ser un bon reflector de color per a la pel·lícula i DiCaprio li va donar una aparença més madura.

prompte: un collage de Star Wars imatges en un estil retro vintage

Encara que tots dos xarxes neuronals són experts en la creació de collages, si us fixeu bé, Midjourney distorsiona cares i algunes formes d'objectes, mentre que Dall-E 3 és més precís en l'execució dels propis personatges, fins i tot va resultar ser Chewbacca.

indicació: una imatge d'una medusa gorgona russa amb roba de carrer hypebeast de Balenciaga i passejant per un carrer de Manhattan amb serps per als cabells

Quan amplieu les fotografies, notareu que Dall-E 3 té els ulls borrosos; Midjourney, en canvi, és impecable. Dall-E 3 també va prescriure una marca; les serps dels caps semblen estar més vives i en moviment; Midjourney sempre els feia estirats, més que al cap.

Avís: aquesta fotografia guardonada de Slim Aarons presenta un home aranya disfressat de fada amb un vestit rosa i esponjós i amb una vareta màgica. S'ha fet amb una càmera Fuji Superia X-TRA 800.

Tots dos són genials, però Midjourney va considerar l'estil de l'artista així com l'efecte d'una càmera de cinema, mentre que Dall-E 3 va ignorar el pla de llargada i no ho va tenir en compte.

prompte: fada de l'URSS amb ales i vestit d'astronauta

També vam prendre la decisió de provar una foto amb fades, però Dall-E 3 es va negar obstinadament a cooperar. Midjourney no ignorava les ales perquè s'havia afegit la referència amb ales. Quan Dall-E 3 va fer una foto, va oferir algunes possibilitats intrigants, però amb una dona americana.

indicació: un cargol posant per a un retrat mentre porta un vestit hipster contemporani, capes i textures complexes 4K, disseny detallat de personatges i gra de pel·lícula. El fons presenta escenes vibrants, capritxoses i acolorides.

Midjourney va fer un treball fantàstic, però volem cridar l'atenció especial sobre com Dall-E 3 va crear els efectes de la pel·lícula a la imatge superior dreta i va afegir una escriptura blanca pròpia; va sortir genial.

prompte: Spider-Man, Batman i Iron Man es van reunir per prendre una cervesa en un bar.

Dall-E 3 va poder adonar-se de manera molt obedient de tots els herois de la indicació en una imatge una vegada més. Midjourney es va esforçar molt i fins i tot va estar a prop d'aconseguir-ho.

Avís: amanida d'estiu de tomàquets i cogombres, macro, escena completa, colors càlids, hiperrealista fotorealista d'alta qualitat, il·luminació natural, 5 Unreal Engine, classificació del color, fotografia editorial, fotografia, sessió de fotos, alt, èpic, artgerm, fotografia amb una lent de 70 mm, profunditat de camp, DOF, desenfocament d'inclinació, velocitat d'obturació 1/1000, F/22, balanç de blancs, 32k, superresolució

A primera vista, sembla que tots dos són bons, però una inspecció més detallada revela que el Dall-E 3 no té volum fotorealista i que Midjourney manejava les articulacions amb forquilles amb un cop.

prompte: un McDonald's a l'estil de paisatges espacials imaginatius amb figures humanes realistes, dos cotxes i un tractor, amb una lluna al damunt. Les Nasbis, Pierre Pellegrini, basat en la ciència, pioner en saturació atrevida, firecore

Tots dos generadors són competents en els seus respectius camps, amb Dall-E 3 excel·lent en text i Midjourney destacant en el fotorealisme.

L'assecador de cabells BaByliss D570DE s'utilitza en un interior modern amb il·luminació nocturna, disseny industrial i colors pastel, perfecte per a una sessió d'estudi.

La física i la geometria dels assecadors de cabells són difícils Midjourney. Podeu passar molt de temps lluitant amb proves i referències, i de vegades els resultats s'assemblen a un assecador de cabells, però Dall-E 3 va produir un resultat acceptable al primer intent i fins i tot va escriure el text.

prompte: foto de Turanga Leela tunica de Futurama

L'únic ull és bo, però això és una altra història. En Midjourney, vam escriure una indicació negativa: sense dibuixos animats, il·lustracions, plans, dos ulls. Dall-E 3 va obeir immediatament i va fer un ull, un somriure i es va treure el barret, però es va negar rotundament a deixar que ningú li fes una foto.

L'actor Brad Pitt es veu als anys 1990 regant els llits de l'horta d'una casa rural russa mentre portava una samarreta de tirants a ratlles i pantalons de xandall d'Adidas. L'escena va ser capturada a l'Agfa Vista 400.

Midjourney va fer que la generació no fos com Brad, així que vam utilitzar el servei addicional Insight Face Swap posar la cara de Brad a la generació; hi havia una publicació sobre això aquí. Dall-E 3 sap qui és Brad Pitt i pot dibuixar estrelles sense cap programari addicional.

prompte: una bella noia, unicorns, tecnologies de poma i un collage retro vintage de galàxies

Les dues malles són bones, però Dall-E 3 pot crear banyes d'unicorn mentre Midjourney normalment no pot.

indicació: gelat a la mà, roba esportiva Nike i un impressionant elf de fantasia assegut al costat d'un orc en una foto de carrer.

Dall-E 3 va fer una bona feina posant els personatges en acció; podem veure un orc i un elf amb orelles d'elf. També hi ha una persona que porta un xandall de Nike, però té els ulls tacats. Les orelles punxegudes elfes són ignorades en la seva majoria Midjourney, i Nike també és ignorat.

prompte: dibuix d'una fada de l'URSS vestida d'astronauta

Quan la "il·lustració" postdata es va deixar inicialment fora de l'indicador, Dall-E 3 en va crear una. Aleshores vam decidir comparar-ho Midjourneyla il·lustració de. Mentre Midjourney s'assemblava més a les il·lustracions de l'època soviètica i no incloïa les ales de fades, Dall-E 3 va fer un treball fantàstic dibuixant la falç i el martell. L'exemple de la dreta mostra com podria aparèixer Dall-E 3 al text.

indicació: una datxa a Júpiter, els anells orbitals del planeta es poden veure a la distància, un extraterrestre cuina una barbacoa, dissenys de personatges complexos, fons brillants, boig i colorits, correcció de colors pastel a la pel·lícula de Wes Anderson, gra de pel·lícula i un Tokina AT - Objectiu X 11-16 mm f/2.8 Pro dX II

No obstant això, Midjourney va entrar al fotorealisme; no hi ha cap personatge principal a les imatges, només l'entorn, però encara és genial. Dall-E 3 no volia tornar a estar a la foto.

indicació: gra de pel·lícula, menjar per a gossos, disseny de personatges complexos, capes i textures, escenes brillants, absurdes i acolorides al fons i correcció de colors pastel com en una pel·lícula de Wes Anderson

Dall-E 3 vs. Midjourney: Pros i contres

A mesura que els usuaris exploren aquesta tecnologia, han sortit a la llum diversos punts forts i limitacions notables, que ofereixen una visió més detallada de la seva funcionalitat.

Pros:

Obediència ràpida: Una de les característiques més destacades de Dall-E 3 és la seva notable capacitat per seguir les indicacions amb precisió. Els usuaris han informat que el model d'IA respon eficaçment a una àmplia gamma d'entrada, el que el converteix en una eina versàtil per a diverses tasques.
Creativitat polifacètica: Dall-E 3 mostra la capacitat de representar diversos personatges dins d'una sola imatge, ampliant el seu potencial per a la narració d'històries i projectes creatius. Aquest enfocament polifacètic millora la seva utilitat en diferents dominis.
Integració de text: Els usuaris han observat la competència de Dall-E 3 a l'hora d'integrar text perfectament a les imatges. Aquesta característica facilita la creació de contingut visualment atractiu amb elements textuals incrustats.

Contres:

Claritat de la imatge: Una limitació notable és la tendència de la IA a produir imatges amb cares i ulls borrosos. Tot i que sobresurt en creativitat, de vegades no té la claredat i la precisió que es veuen en el contingut generat per humans.
Coherència d'estil: Dall-E 3 no replica constantment els estils d'artistes específics, que pot ser un inconvenient per a aquells que busquen una emulació artística precisa.
Requisit de VPN: Actualment, l'accés a Dall-E 3 requereix l'ús d'una VPN, cosa que pot suposar problemes d'accessibilitat per a alguns usuaris.
Gestió d'imatges: Els usuaris s'han trobat amb limitacions a l'hora de gestionar les imatges generades al lloc web de Microsoft Bing. En particular, no hi ha cap funció d'orientació de format i l'historial d'imatges està restringit a les càrregues recents, la qual cosa requereix una còpia immediata per a un ús posterior.
Velocitat de generació: En alguns casos, s'ha informat que el procés de generació a Dall-E 3 és més lent en comparació amb altres models d'IA.

Malgrat aquestes limitacions, Dall-E 3 té una promesa substancial. Tant els usuaris com els experts reconeixen el seu potencial per revolucionar la creació de contingut i la narració de històries. Com OpenAI continua perfeccionant i ampliant la seva oferta, s'espera que els punts forts de Dall-E 3 brillin encara més, convertint-lo en una eina valuosa en diversos camps.

Preguntes freqüents

Tant Dall-E 3 com Midjourney tenen els seus punts forts i febles. Dall-E 3 és notablement obedient a les indicacions i pot integrar text perfectament a les imatges. Tanmateix, de vegades produeix imatges amb cares i ulls borrosos i és possible que no reprodueixin de manera coherent els estils d'artistes específics. Per altra banda, Midjourney sobresurt en el fotorealisme, però potser no sempre capta l'essència de determinades indicacions amb tanta precisió com Dall-E 3.

L'article proporciona indicacions de text a imatge, que mostren els resultats tant de Dall-E 3 com Midjourney, i explica les diferències entre els dos generadors d'art.

Tots dos models d'IA tenen els seus punts forts i febles. Per exemple, en un missatge sobre un astronauta a Júpiter, Midjourney va superar lleugerament el Dall-E 3. No obstant això, en una altra indicació sobre Wonder Woman, Dall-E 3 va ser més precisa a l'hora de capturar l'essència de la indicació.

Obediència ràpida: Dall-E 3 segueix les indicacions amb precisió.
Creativitat polifacètica: pot representar diversos personatges en una sola imatge.
Integració de textos: Dall-E 3 pot integrar text a les imatges de manera perfecta.

Claredat de la imatge: De vegades produeix imatges amb cares i ulls borrosos.
Coherència d'estil: Dall-E 3 no replica constantment els estils d'artistes específics.
Gestió d’imatges: hi ha limitacions a l'hora de gestionar les imatges generades al lloc web de Microsoft Bing.
Velocitat de generació: El procés de generació de Dall-E 3 pot ser més lent en comparació amb altres models d'IA.

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov