Informe de noticias Tecnología
21 de septiembre de 2023

El lanzamiento de DALL-E 3 amplifica OpenAILa influencia, el abandono Midjourney y Stable Diffusion Detrás

En Resumen

DALL-E 3 está configurado para integrarse perfectamente con GPT-4, diseñado específicamente para ChatGPT+ suscriptores.

DALL-E 3 se abstiene de recrear imágenes de figuras públicas cuando sus nombres se mencionan explícitamente.

El cronograma para el acceso a DALL-E 3 está fijado para octubre.

OpenAI ha presentado su última creación: DALL-E3. A diferencia de sus predecesores, DALL-E 3 se centra en refinar los detalles, abordando cuestiones como letras y detalles intrincados del cuerpo, como los dedos. ¿El resultado? Una variedad de imágenes estéticamente agradables sin la necesidad de indicaciones complejas o soluciones alternativas.

El lanzamiento de DALL-E 3 amplifica OpenAILa influencia, el abandono Midjourney y Stable Diffusion Detrás

Es importante tener en cuenta que esta versión no incluye un conjunto completo de detalles de implementación, artículos o API. En cambio, DALL-E 3 está configurado para integrarse perfectamente con GPT-4, diseñado específicamente para ChatGPT+ suscriptores.

Es posible que este desarrollo no sea un cambio sísmico en el panorama de la IA, sino más bien un paso adelante en la colaboración entre modelos. Muchos anticipan que la próxima Stable Diffusion modelo ofrecerá aún mayor sofisticación y atractivo artístico.

Para ponerlo en contexto, OpenAIEl viaje de a través de la generación de imágenes mediante IA ha sido todo un recorrido:

  • 2021: DALL-E 1, un modelo de 12 mil millones de parámetros, se presentó con información limitada.
  • 2021: GLIDE, un modelo de 2 mil millones de parámetros, se presentó junto con modelos de código abierto de 300 millones de parámetros.
  • 2022: Llegó DALL-E 2, con 2 mil millones de parámetros, acompañado de un papel unCLIP y API.
  • 2023: DALL-E 3 ha hecho su entrada y, si bien los detalles pueden ser algo crípticos, una cosa está clara: se integrará con GPT-4 para ChatGPT+ suscriptores.

Por ahora, las imágenes de DALL-E 3 siguen siendo algo escasas. No hay código base, publicación de blog ni comparación detallada con lo último en tecnología (SOTA). OpenAI Parece mantener sus cartas cerca de su pecho.

El lanzamiento de DALL-E 3 amplifica OpenAILa influencia, el abandono Midjourney y Stable Diffusion Detrás

Se promociona que el modelo posee una comprensión más profunda de los matices y detalles en comparación con sus predecesores. Esto significa que se espera que traducir sus conceptos creativos en imágenes de alta precisión sea un proceso más sencillo.

Una promesa intrigante de DALL-E 3 es su integración con ChatGPT. Esto implica que los usuarios no tendrán que lidiar con la elaboración de indicaciones complejas; una breve descripción debería ser suficiente, con ChatGPT generando hábilmente indicaciones detalladas en su nombre.

OpenAI También ha enfatizado la importancia del contexto en indicaciones extensas. DALL-E 3 está diseñado para adoptar la verbosidad, haciéndolo más acorde con el contexto descrito en indicaciones extensas.

Sin embargo, como ocurre con cualquier modelo nuevo de IA, existe un elemento de lo desconocido. Si bien los primeros atisbos parecen prometedores, la verdadera prueba de fuego vendrá con un uso prolongado. Quedan dudas sobre su eficiencia y velocidad de funcionamiento.

Es probable que DALL-E 3 sea un proceso de difusión de múltiples etapas, con GPT-4 sirviendo como codificador de texto. La intrincada mecánica de esta configuración puede permanecer envuelta en secreto.

El cronograma para el acceso a DALL-E 3 está fijado para octubre, inicialmente para ChatGPT Plus y ChatGPT Usuario empresarials, con la posibilidad de un acceso más amplio para los investigadores a partir de entonces.

Relacionado:: OpenAIAltman en el Senado de EE. UU. para discutir los riesgos de la IA

Sombreado y Censura de DALL-E 3

Los principales puntos focales del desarrollo de DALL-E 3 fue el meticuloso proceso de frenar sus capacidades. Esto implicó una alineación estricta y filtros diseñados para excluir tipos específicos de contenido. Por ejemplo, el modelo se niega rotundamente a generar imágenes de personalidades famosas, replicar obras de arte al estilo de artistas de renombre o crear cualquier contenido que la comunidad considere inseguro. OpenAILos estándares más exigentes. Este enfoque estratégico no se trata sólo de limitaciones; es una medida proactiva destinada a proteger a la empresa de posibles enredos legales.

Sin embargo, más allá de estos filtros y alineamientos, salen a la luz algunas observaciones intrigantes. DALL-E 3 parece presentar cierta debilidad a la hora de generar contenidos fotorrealistas. En lugar de producir imágenes que imiten fotografías reales a la perfección, el resultado tiene una calidad estilizada distintiva. Estas imágenes creadas por IA exudan una apariencia casi renderizada y ligeramente plástica. Incluso cuando se le solicita explícitamente la palabra “fotografía”, el resultado permanece arraigado en su estilización característica.

Indicación n.º 1
Pregunta #1: Fotografía en primer plano de un cangrejo ermitaño enclavado en arena húmeda, con espuma de mar cerca y los detalles de su caparazón y la textura de la arena acentuados.
Indicación n.º 2
Pregunta #2: Un sofá amarillo vibrante con forma de plátano se encuentra en una acogedora sala de estar, su curva sostiene una pila de cojines coloridos. en el piso de madera, una alfombra estampada agrega un toque de encanto ecléctico, y una planta en maceta se encuentra en la esquina, alcanzando la luz del sol que se filtra a través de la ventana.
Indicación n.º 3
Pregunta #3: Una foto de un antiguo naufragio ubicado en el fondo del océano. Las plantas marinas se han apoderado de la estructura de madera y los peces nadan dentro y fuera de sus espacios huecos. Tesoros hundidos y viejos cañones se encuentran dispersos por todas partes, lo que permite vislumbrar el pasado.

Vale la pena señalar que a pesar de estas idiosincrasias, DALL-E 3 ofrece un vistazo de un potencial notable. Entre sus creaciones, algunas muestran un sorprendente parecido con fotografías. Hay que tener en cuenta que el realismo simulado de estas imágenes no necesariamente se alinea con cómo aparecería una fotografía genuina del mismo sujeto, especialmente si se sumergiera bajo el agua.

Relacionado:: Microsoft presentó Designer, la primera herramienta profesional de conversión de texto a imagen basada en DALL-E 2

Características y detalles de DALL-E 3

Tomémonos un momento para examinar los píxeles y leer entre líneas para comprender qué ofrece realmente este nuevo modelo.

El arte de la estilización: Mirando a través OpenAIcuenta de Instagram, notarás una gran cantidad de obras de arte caracterizadas por una estilización exquisita. Si bien hay una impresionante variedad de composiciones y diseños abstractos, el modelo parece evitar producir contenido fotorrealista. El énfasis aquí está en la estética y la creatividad, no en imitar la realidad.

Limitaciones artísticas: DALL-E 3 toma un camino diferente al de su predecesor. Se niega rotundamente a crear imágenes al estilo de artistas vivos, una marcada desviación de DALL-E 2, que podría imitar los estilos de ciertos artistas. Esto podría sorprender a la comunidad creativa, similar a la tibia recepción de Stable Diffusion 2.0.

Empoderando a los artistas: En un esfuerzo por respetar los derechos de los artistas, OpenAI permite a los artistas excluir su trabajo de futuras versiones de DALL-E. Al enviar una imagen de la que poseen los derechos, los artistas pueden solicitar su exclusión de la producción del modelo. Las iteraciones futuras de DALL-E evitarán generar contenido parecido al estilo del artista.

Seguridad y censura: OpenAILa paranoia de Rusia sobre la seguridad es palpable. Colaboraron con “equipos rojos” externos para probar la seguridad del modelo y emplearon clasificadores de entrada para enseñarle al modelo a ignorar palabras específicas que podrían conducir a contenido explícito o dañino. DALL-E 3 se abstiene de recrear imágenes de figuras públicas cuando sus nombres se mencionen explícitamente. Sigue siendo incierto si las celebridades entran en esta categoría, lo que podría afectar la calidad de los rostros generados.

Marcas de agua y seguimiento: Hay una pista sobre la incorporación de etiquetas para rastrear “imágenes generadas por IA”, lo que indica un movimiento hacia un mejor monitoreo y posible marca de agua en el contenido generado.

Texto y manos mejorados: OpenAI promociona una generación de texto mejorada y renderizado manual, un reclamo común entre los competidores. La verdadera prueba radica en el resultado real más allá de los ejemplos seleccionados.

Comprensión espacial: DALL-E 3 sobresale en la comprensión de las relaciones espaciales descritas en las indicaciones. Esto mejora la capacidad del modelo para construir ángulos y composiciones complejas, aunque los usuarios esperan pruebas más concretas de esta promesa.

El poder de las indicaciones: El quid de la cuestión DALL-E3 radica en sus rápidas capacidades e integración con ChatGPT. Promete automatización, velocidad y simplificación del diseño rápido. La tendencia aquí es hacia chatGPT generando indicaciones, traduciendo ideas vagas o indicaciones rudimentarias en ideas elocuentes. La comprensión contextual mejorada de DALL-E 3 agiliza el proceso, permitiendo a los usuarios centrarse en la intención más que en la verbosidad.

Territorios inexplorados: Notablemente ausentes de la discusión están aspectos como pintura interna, pintura externa, relleno generativo y modelado 3D. La ausencia de estas características podría suponer una limitación, sobre todo para usuarios acostumbrados a modelos más versátiles.

Detalles de acceso: DALL-E 3 está configurado para estar disponible para ChatGPT Clientes Plus y Enterprise a principios de octubre. Sin embargo, las particularidades relativas a la asignación de créditos para ChatGPT Los usuarios de Plus y los costos asociados aún no están claros. El acceso se proporcionará a través de la API y el OpenAI Plataforma Labs “más adelante en el otoño”.

Proeza de integración: DALL-E está configurado para integrarse perfectamente en los productos de los socios y de Microsoft. Espere presenciar la generación de presentaciones, ilustraciones, diseños, logotipos, todo en contexto y amplificado con la ayuda de ChatGPT. Esta integración se generalizará, lo que plantea un desafío importante para competidores como Google con su Bardo e Ideograma.

La convergencia de LLM y contenido visual: El aspecto más intrigante radica en la convergencia de los modelos de lenguaje grande (LLM) y los modelos de generación de contenido visual. Significa un cambio de la ingeniería compleja a la expresión de ideas en un lenguaje más accesible. La IA extraerá contexto e ideas de estas expresiones, ofreciendo posibilidades creativas a las que es difícil resistirse.

Relacionado:: Las 50 mejores indicaciones de texto a imagen para generadores de arte con IA Midjourney y DALL-E

DALL-E 3: Sea un nuevo líder en la generación de imágenes de IA

OpenAILa decisión de integrar DALL-E 3 en el ChatGPT ecosistema es un movimiento estratégico. Esta integración otorga a DALL-E 3 acceso a una amplia base de datos de usuarios de 100 millones de usuarios activos. Este paso mejora significativamente la accesibilidad de DALL-E 3 y tiene el potencial de catapultar su popularidad.

Actualmente, Midjourney y Stable Diffusion alardear alrededor 15 millones de usuarios registrados. Sin embargo, con esta integración, DALL-E 3 obtendrá acceso a una base de usuarios diez veces mayor: 100 millones de usuarios. Esto hace que el ChatGPT Más suscripción El plan es aún más atractivo, ya que ofrece acceso a un chatbot, herramientas analíticas y generación de imágenes, todo a un precio asequible.

La integración no sólo es ventajosa para los usuarios existentes sino que también sirve como un poderoso imán para los nuevos usuarios. Se expande el OpenAI el alcance y la popularidad del ecosistema, atrayendo a personas que buscan soluciones de contenido generado por IA.

Este movimiento estratégico está preparado para impulsar OpenAILos ingresos y otras métricas clave. Es probable que los inversores de la empresa vean con buenos ojos esta evolución, especialmente a la luz de una reciente 20% de disminución en el volumen de tráfico durante el verano.

ChatGPT El tráfico web cae un 20% en septiembre y continúa cayendo en picado

Leer más temas relacionados:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Over Protocol planea lanzar su red principal en junio, ya que su red de prueba atrae a más de 750,000 usuarios
Informe de noticias Tecnología
Over Protocol planea lanzar su red principal en junio, ya que su red de prueba atrae a más de 750,000 usuarios
13 de mayo de 2024
La represión de las criptomonedas en Rusia se presenta como una propuesta para endurecer las regulaciones para los mineros privados
Opinión Industrias Software Tecnología
La represión de las criptomonedas en Rusia se presenta como una propuesta para endurecer las regulaciones para los mineros privados
13 de mayo de 2024
Avalon Miner A1566 de Canaan aporta innovación a la minería de Bitcoin con una eficiencia de 185 Thash/s y 18.5J/T mientras navega en una era posterior a la reducción a la mitad
Entrevista Empresa Industrias Software Tecnología
Avalon Miner A1566 de Canaan aporta innovación a la minería de Bitcoin con una eficiencia de 185 Thash/s y 18.5J/T mientras navega en una era posterior a la reducción a la mitad
13 de mayo de 2024
Aprovechar la innovación blockchain: Alemania da un paso audaz hacia la transformación de la atención sanitaria y la mejora de la atención al paciente
Estilo de vida Industrias Software Historias y comentarios Tecnología
Aprovechar la innovación blockchain: Alemania da un paso audaz hacia la transformación de la atención sanitaria y la mejora de la atención al paciente
13 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.