Enero 24, 2023

GLIGEN: nuevo modelo de generación de texto a imagen congelado con cuadro delimitador

Publicado: 24 de enero de 2023 a las 5:00 p.m. Actualizado: 21 de marzo de 2024 a las 11:40 a.m.

Editado y verificado: 24 de enero de 2023 a las 5:00 p.m.

En Resumen

GLIGEN, o Grounded-Language-to-Image Generation, es una técnica novedosa que se basa y amplía la capacidad de los modelos de difusión pre-entrenados actuales.

Con entradas de condiciones de subtítulos y cuadros delimitadores, el modelo GLIGEN genera text2img conectado a tierra de mundo abierto.

GLIGEN puede generar una variedad de objetos en lugares y estilos específicos aprovechando el conocimiento de un modelo text2img previamente entrenado.

GLIGEN también puede poner a tierra puntos clave humanos mientras genera texto a imágenes.

Los modelos de difusión de texto a imagen a gran escala han recorrido un largo camino. Sin embargo, la práctica actual es confiar únicamente en la entrada de texto, lo que puede limitar la capacidad de control. GLIGEN, o Grounded-Language-to-Image Generation, es una técnica novedosa que se basa y amplía la capacidad de los modelos actuales de difusión de texto a imagen preentrenados al permitir que se condicionen en entradas de tierra.

GLIGEN: nuevo modelo de generación de texto a imagen congelado con cuadro delimitador

Para mantener el amplio conocimiento del concepto del modelo preentrenado, los desarrolladores congelan todos sus pesos y bombean la información de puesta a tierra en nuevas capas entrenables a través de un proceso controlado. Con entradas de condición de subtítulos y cuadros delimitadores, el modelo GLIGEN genera texto a imagen conectado a tierra de mundo abierto, y la capacidad de conexión a tierra se generaliza de manera efectiva a configuraciones y conceptos espaciales novedosos.

Primero eche un vistazo al sitio web de la página manifestación haga clic aquí

GLIGEN se basa en modelos de difusión preentrenados existentes, cuyos pesos originales se han congelado para retener cantidades masivas de conocimiento preentrenado.

GLIGEN se basa en sistemas pre-entrenados existentes modelos de difusión, cuyos pesos originales se han congelado para retener cantidades masivas de conocimiento preentrenado.
En cada bloque de transformador, se crea una nueva capa de autoatención cerrada entrenable para absorber la entrada de conexión a tierra adicional.
Cada token de conexión a tierra tiene dos tipos de información: información semántica sobre la cosa conectada a tierra (texto o imagen codificados) e información de posición espacial (cuadro delimitador codificado o puntos clave).

Artículo relacionado: VToonify: un modelo de IA en tiempo real para generar videos de retratos artísticos

Las capas moduladas recién agregadas se entrenan previamente continuamente en datos de conexión a tierra masivos (cuadro de texto de imagen), lo que es más rentable que los métodos alternativos de usar un modelo de difusión preentrenado, como el ajuste fino del modelo completo. De manera similar a Lego, se pueden conectar y desconectar diferentes capas entrenadas para permitir varias capacidades nuevas. — Las capas moduladas recién agregadas se entrenan previamente continuamente con datos de conexión a tierra masivos (imagen-cuadro de texto). Esto es más rentable que los métodos alternativos de utilizar un profesional previamente capacitado. modelo de difusión, como el ajuste fino del modelo completo. Al igual que en Lego, se pueden conectar y desconectar diferentes capas entrenadas para permitir diversas capacidades nuevas.

GLIGEN admite el muestreo programado en el proceso de difusión para la inferencia, donde el modelo puede seleccionar dinámicamente usar fichas de puesta a tierra (al agregar la nueva capa) o el modelo de difusión original con buena previa (al eliminar la nueva capa), y así equilibrar la calidad de la generación y capacidad de puesta a tierra.

GLIGEN puede generar una variedad de objetos en lugares y estilos específicos aprovechando el conocimiento de un modelo text2img previamente entrenado.

Artículo relacionado: Microsoft ha lanzado un modelo de difusión que puede construir un avatar 3D a partir de una sola foto de una persona.

GLIGEN también se puede entrenar usando fotos de referencia. La fila superior sugiere que las fotografías de referencia, además de las descripciones escritas, pueden brindar características más detalladas, como el estilo y la forma del automóvil. La segunda fila demuestra que una imagen de referencia también se puede utilizar como una imagen de estilo, en cuyo caso descubrimos que basta con colocarla en una esquina o borde de una imagen.

GLIGEN, al igual que otros modelos de difusión, puede realizar una pintura de imagen a tierra, que puede generar objetos que coincidan estrechamente con los cuadros delimitadores proporcionados.

GLIGEN también puede poner a tierra puntos clave humanos mientras genera texto a imágenes. — GLIGEN también puede poner a tierra puntos clave humanos mientras generación de texto a imágenes.

Lea más sobre la IA:

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov

Hot Stories

Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM

by alisa davidson

03 de mayo de 2024

Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base

by alisa davidson

03 de mayo de 2024

Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2

by alisa davidson

03 de mayo de 2024

CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas

by alisa davidson

03 de mayo de 2024

Últimas Noticias

Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM

by alisa davidson

03 de mayo de 2024

Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base

by alisa davidson

03 de mayo de 2024

Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2

by alisa davidson

03 de mayo de 2024

CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas

by alisa davidson

03 de mayo de 2024

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más