Setembre 21, 2023

Amplificadors de llançament DALL-E 3 OpenAIInfluència de, marxar Midjourney i Stable Diffusion Darrere

by Damir Yalalov

Publicat: 21 de setembre de 2023 a les 4:29 Actualitzat: 22 de març de 2024 a les 11:17

by Danil Myakin

Editat i verificat: 21 de setembre de 2023 a les 4:29

En breu

DALL-E 3 està configurat per integrar-se perfectament GPT-4, específicament fet a mida ChatGPT+ subscriptors.

DALL-E 3 s'absté de recrear imatges de personatges públics quan els seus noms s'esmenten explícitament.

El calendari d'accés a DALL-E 3 està fixat per a l'octubre.

OpenAI ha presentat la seva darrera creació: DALL-E3. A diferència dels seus predecessors, DALL-E 3 se centra a perfeccionar les minuciositats, abordant problemes com les lletres i els detalls complexos del cos, com els dits. El resultat? Una sèrie d'imatges estèticament agradables sense necessitat de sol·licituds o solucions alternatives.

Amplificadors de llançament DALL-E 3 OpenAIInfluència de, marxar Midjourney i Stable Diffusion Darrere

És important tenir en compte que aquesta versió no inclou un conjunt complet de detalls d'implementació, articles o API. En canvi, DALL-E 3 està configurat per integrar-se perfectament GPT-4, específicament fet a mida ChatGPT+ subscriptors.

Pot ser que aquest desenvolupament no sigui un canvi sísmic en el panorama de la IA, sinó un pas endavant en la col·laboració entre models. Molts esperen que el proper Stable Diffusion model oferirà encara més sofisticació i atractiu artístic.

Per posar-ho en context, OpenAIEl viatge de la generació d'imatges d'IA ha estat tot un passeig:

2021: DALL-E 1, un model de paràmetres de 12 mil milions, es va introduir amb informació limitada.
2021: GLIDE, un model de 2 mil milions de paràmetres, es va presentar juntament amb models de codi obert de 300 milions de paràmetres.
2022: Va arribar DALL-E 2, amb 2 milions de paràmetres, acompanyat d'un document unCLIP i API.
2023: DALL-E 3 ha fet la seva entrada i, tot i que els detalls poden ser una mica críptics, una cosa està clara: s'integrarà amb GPT-4 for ChatGPT+ subscriptors.

De moment, les imatges de DALL-E 3 segueixen sent una mica escasses. No hi ha cap base de codi, publicació de bloc ni comparació detallada amb l'estat de l'art (SOTA). OpenAI sembla mantenir les seves cartes a prop del seu pit.

Es promociona que el model té una comprensió més profunda dels matisos i detalls en comparació amb els seus predecessors. Això vol dir que traduir els vostres conceptes creatius en imatges molt precises s'espera que sigui un procés més fluid.

Una promesa intrigant de DALL-E 3 és la seva integració amb ChatGPT. Això implica que els usuaris no hauran de lluitar amb l'elaboració d'indicacions complexes; una breu descripció hauria de ser suficient, amb ChatGPT generant amb habilitat instruccions detallades en nom vostre.

OpenAI també ha posat èmfasi en la importància del context en les indicacions llargues. DALL-E 3 està dissenyat per abraçar la verbositat, fent-lo més en sintonia amb el context descrit a les indicacions extenses.

Tanmateix, com amb qualsevol nou model d'IA, hi ha un element desconegut. Tot i que les visió inicials semblen prometedores, la veritable prova de tornasol vindrà amb un ús prolongat. Hi ha preguntes sobre la seva eficiència i velocitat de funcionament.

És probable que DALL-E 3 sigui un procés de difusió de diverses etapes, amb GPT-4 serveix com a codificador de text. La mecànica complexa d'aquesta configuració pot romandre envoltada en secret.

El calendari d'accés a DALL-E 3 està fixat per a l'octubre, inicialment per ChatGPT A més i ChatGPT Usuari empresarials, amb una possibilitat d'accés més ampli per als investigadors posteriorment.

connex: OpenAIAltman al Senat dels Estats Units per discutir els riscos de la IA

Nuances i censura de DALL-E 3

Els punts focals principals del desenvolupament de DALL-E 3 va ser el procés minuciós de frenar les seves capacitats. Això implicava una alineació estricta i filtres dissenyats per excloure tipus específics de contingut. Per exemple, el model es nega rotundament a generar imatges de personalitats famoses, replicar obres d'art a l'estil d'artistes de renom o crear qualsevol contingut que consideri insegur OpenAIestàndards exigents. Aquest enfocament estratègic no es tracta només de limitacions; és una mesura proactiva destinada a protegir l'empresa de possibles embolics legals.

No obstant això, més enllà d'aquests filtres i alineacions, surten a la llum algunes observacions intrigants. DALL-E 3 sembla mostrar una certa debilitat a l'hora de generar contingut fotorealista. En lloc de produir imatges que imiten fotografies reals perfectament, la sortida té una qualitat estilitzada diferent. Aquestes imatges fetes amb IA desprenen un aspecte gairebé representat i lleugerament plàstic. Fins i tot quan se li demana explícitament la paraula "fotografia", el resultat es manté arrelat en la seva estilització característica.

Avís #1 — Indicació núm. 1: Fotografia de primer pla d'un cranc ermità enclavat a la sorra humida, amb escuma marina a prop i els detalls de la seva closca i la textura de la sorra accentuats.

Avís #2 — Indicació núm. 2: un sofà groc vibrant en forma de plàtan s'asseu en una sala d'estar acollidora, la seva corba bressol un munt de coixins de colors. al terra de fusta, una catifa estampada afegeix un toc d'encant eclèctic, i una planta en test es troba a la cantonada, arribant cap a la llum del sol filtrant-se per la finestra.

Avís #3 — Indicació núm. 3: una foto d'un antic naufragi situat al fons de l'oceà. Les plantes marines han reivindicat l'estructura de fusta i els peixos neden dins i fora dels seus espais buits. Tresors enfonsats i vells canons s'escampen al voltant, oferint una visió del passat.

Val la pena assenyalar que, malgrat aquestes idiosincràsies, DALL-E 3 ofereix una visió d'un potencial notable. Entre les seves creacions, alguns exemples mostren una semblança sorprenent amb les fotografies. Cal tenir en compte que el realisme simulat d'aquestes imatges no necessàriament s'alinea amb com apareixeria una fotografia genuïna del mateix subjecte, sobretot si submergides sota l'aigua.

connex: Microsoft va presentar Designer, la primera eina professional de text a imatge basada en DALL-E 2

Característiques i detalls de DALL-E 3

Prenem un moment per tamisar els píxels i llegir entre línies per entendre què ofereix realment aquest nou model.

L'art de l'estilització: Mirant a través OpenAIcompte d'Instagram de, notareu una gran quantitat d'obres d'art caracteritzades per una estilització exquisida. Tot i que hi ha una gamma impressionant de composicions i dissenys abstractes, el model sembla evitar produir contingut fotorealista. L'èmfasi aquí està en l'estètica i la creativitat, no imitant la realitat.

Limitacions artístiques: DALL-E 3 pren un camí diferent al del seu predecessor. Es nega rotundament a crear imatges a l'estil dels artistes vius, una allunyada clara de DALL-E 2, que podria imitar els estils de certs artistes. Això podria aixecar les celles a la comunitat creativa, similar a la recepció tèbia de Stable Diffusion 2.0.

Empoderament dels artistes: En un moviment per respectar els drets dels artistes, OpenAI permet als artistes excloure el seu treball de futures versions de DALL-E. En enviar una imatge de la qual tenen els drets, els artistes poden sol·licitar-ne l'exclusió de la producció del model. Les futures iteracions de DALL-E evitaran generar contingut semblant al estil de l'artista.

Seguretat i Censura: OpenAILa paranoia sobre la seguretat és palpable. Han col·laborat amb "equips vermells" externs per provar la seguretat del model i han utilitzat classificadors d'entrada per ensenyar al model a ignorar paraules específiques que podrien conduir a contingut explícit o nociu. DALL-E 3 s'absté de recrear imatges de personatges públics quan els seus noms s'esmenten explícitament. Encara no se sap si les celebritats entren en aquesta categoria, cosa que pot afectar la qualitat de les cares generades.

Marques d'aigua i seguiment: Hi ha una pista sobre la incrustació d'etiquetes per fer un seguiment de les "imatges generades per IA", que indica un moviment cap a un millor control i potencialment marca d'aigua del contingut generat.

Text i mans millorats: OpenAI proposa una millora en la generació de text i la representació manual, una afirmació comuna entre els competidors. La prova real rau en la producció real més enllà dels exemples escollits amb cireres.

Comprensió espacial: DALL-E 3 sobresurt en la comprensió de les relacions espacials descrites a les indicacions. Això millora la capacitat del model per construir angles i composicions complexes, tot i que els usuaris esperen proves més concretes d'aquesta promesa.

El poder de les indicacions: El quid de DALL-E3 rau en la seva ràpida capacitat i integració amb ChatGPT. Promet automatització, velocitat i simplificació del disseny ràpid. La tendència aquí és cap a chatGPT generant indicacions, traduint idees vagues o suggeriments rudimentaris en eloqüents. La comprensió contextual millorada de DALL-E 3 racionalitza el procés, permetent als usuaris centrar-se en la intenció per sobre de la verbositat.

Territoris inexplorats: Notablement absents de la discussió hi ha aspectes com l'inpainting, el outpainting, el farciment generatiu i el modelatge 3D. L'absència d'aquestes característiques podria ser una limitació, sobretot per als usuaris acostumats a models més versàtils.

Detalls d'accés: DALL-E 3 està configurat per estar disponible per ChatGPT Clients Plus i Enterprise a principis d'octubre. No obstant això, les especificitats relatives a l'assignació de crèdits per ChatGPT A més, els usuaris i els costos associats encara no estan clars. L'accés es proporcionarà mitjançant l'API i el OpenAI Plataforma Labs "més tard a la tardor".

Capacitat d'integració: DALL-E està configurat per integrar-se perfectament als productes de socis i de Microsoft. Espereu presenciar la generació de presentacions, il·lustracions, dissenys, logotips, tot en context i amplificat amb l'assistència de ChatGPT. Aquesta integració es convertirà en corrent, suposant un repte important per a competidors com Google amb el seu Bard i Ideograma.

La convergència de LLM i contingut visual: L'aspecte més intrigant rau en la convergència dels grans models de llenguatge (LLM) i els models de generació de contingut visual. Significa un canvi d'una enginyeria ràpida complexa a expressar idees en un llenguatge més accessible. L'IA recopilarà context i idees d'aquestes expressions, oferint possibilitats creatives que són difícils de resistir.

connex: Les 50 principals indicacions de text a imatge per als generadors d'art d'IA Midjourney i DALL-E

DALL-E 3: ser un nou líder en la generació d'imatges d'IA

OpenAIla decisió d'integrar DALL-E 3 al ChatGPT L'ecosistema és un moviment estratègic. Aquesta integració dóna accés a DALL-E 3 a una àmplia base de dades d'usuaris de 100 milions d'usuaris actius. Aquest pas millora significativament l'accessibilitat del DALL-E 3 i té el potencial de catapultar-ne la popularitat.

Actualment, Midjourney i Stable Diffusion presumir al voltant 15 milions d’usuaris registrats. Tanmateix, amb aquesta integració, DALL-E 3 està configurat per accedir a una base d'usuaris deu vegades més gran: 100 milions d'usuaris. Això fa que el ChatGPT A més de subscripció planificar encara més atractiu, ja que ofereix accés a un chatbot, eines analítiques i generació d'imatges, tot a un preu assequible.

La integració no només és avantatjosa per als usuaris existents, sinó que també serveix com un imant potent per als usuaris nous. S'amplia el OpenAI l'abast i la popularitat de l'ecosistema, atraient persones que busquen solucions de contingut generades per IA.

Aquest moviment estratègic està a punt per impulsar OpenAId'ingressos i altres mètriques clau. És probable que els inversors de la companyia veuran favorablement aquest desenvolupament, especialment a la llum d'un recent Disminució del 20% del volum de trànsit durant l'estiu.

ChatGPT El trànsit web cau un 20% al setembre i continua baixant

Llegeix més temes relacionats:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov

Hot Stories

La xarxa Nim llançarà el marc de tokenització de la propietat de l'IA i duu a terme una venda de rendiment amb una data d'instantània programada per al maig

by Alisa Davidson

Pot 13, 2024

Over Protocol té previst llançar la seva xarxa principal al juny, ja que la seva xarxa de proves atrau més de 750,000 usuaris

by Alisa Davidson

Pot 13, 2024

La repressió de la criptografia a Rússia es presenta com una proposta per endurir les regulacions per als miners privats

by Viktoria Palchik

Pot 13, 2024

L'Avalon Miner A1566 de Canaan aporta innovació a la mineria de Bitcoin amb 185 Thash/s i una eficiència de 18.5J/T mentre es navega per una era posterior a la meitat

by Viktoria Palchik

Pot 13, 2024

Últimes notícies

AlphaFold 3, Med-Gemini i altres: la manera com la IA transforma l'assistència sanitària el 2024

by Zhauhazyn Shaden

Pot 13, 2024

La xarxa Nim llançarà el marc de tokenització de la propietat de l'IA i duu a terme una venda de rendiment amb una data d'instantània programada per al maig

by Alisa Davidson

Pot 13, 2024

Binance s'associa amb l'Argentina per combatre el cibercrim

by Zhauhazyn Shaden

Pot 13, 2024

Over Protocol té previst llançar la seva xarxa principal al juny, ja que la seva xarxa de proves atrau més de 750,000 usuaris

by Alisa Davidson

Pot 13, 2024

De Ripple a The Big Green DAO: com els projectes de criptomoneda contribueixen a la caritat

Explorem iniciatives que aprofitin el potencial de les monedes digitals per a causes benèfiques.

saber Més

AlphaFold 3, Med-Gemini i altres: la manera com la IA transforma l'assistència sanitària el 2024

La IA es manifesta de diverses maneres en l'assistència sanitària, des de descobrir noves correlacions genètiques fins a potenciar els sistemes quirúrgics robòtics...

saber Més

Uneix-te a la nostra comunitat tecnològica innovadora