VToonify: un modelo de IA en tiempo real para generar videos de retratos artísticos
En Resumen
Los desarrolladores desarrollaron un revolucionario marco VToonify para proporcionar transferencias controladas de estilo de video de retrato de alta resolución.
Para producir impresionantes retratos artísticos, el marco utiliza las capas de resolución media y alta de StyleGAN.
Permite la extensión de los existentes basados en StyleGAN modelos de toonificación de imágenes al video.
Investigadores de la Universidad Tecnológica de Nanyang han introdujo un marco VToonify novedoso para generar una transferencia de estilo de video de retrato de alta resolución controlable. VToonify aprovecha las capas de resolución media y alta de StyleGAN para generar retratos artísticos de alta calidad basados en las funciones de contenido de escala múltiple extraídas por un codificador para preservar mejor los detalles del marco. Los resultados experimentales muestran que nuestro marco puede generar videos con una alta calidad constante y las expresiones faciales deseadas sin la necesidad de alineación facial o restricciones de tamaño de fotograma.
Como resultado, una arquitectura completamente convolucional que acepta caras no alineadas en videos de varios tamaños produce caras completas con movimientos orgánicos. El marco VToonify hereda características atractivas de estos modelos para un control de estilo flexible en color e intensidad. Es compatible con los modelos de toonificación de imágenes basados en StyleGAN existentes para extenderlos a la toonificación de video. Este trabajo presenta dos instancias de VToonify para la transferencia de estilo de video de retratos basada en colecciones y ejemplares, respectivamente, construidas sobre Toonify y DualStyleGAN.
Amplios hallazgos experimentales muestran que el marco VToonify propuesto supera a los enfoques de la competencia en la producción de películas de retratos artísticos con controles de estilo ajustables que son de excelente calidad y temporalmente consistentes. Controlar GitHub para más información.
Artículo relacionado: OpenAI está trabajando en la creación de un modelo de IA para video |
Para proporcionar una transferencia de estilo de video de retrato de alta resolución controlable, VToonify combina las ventajas del marco de traducción de imágenes y el marco basado en StyleGAN.
(A) Para admitir el tamaño de entrada variable, un sistema de traducción de imágenes utiliza redes totalmente convolucionales. Sin embargo, es un desafío impartir un estilo controlado y de alta resolución cuando se enseña desde cero.
(B) El marco basado en StyleGAN, que solo admite tamaño de imagen fijo y pérdidas de detalles, utiliza el modelo StyleGAN preentrenado para transferencia de estilo controlable y de alta resolución.
(C) Para crear una arquitectura de codificador-generador completamente convolucional que se asemeje a la del marco de traducción de imágenes, nuestro sistema híbrido amplía StyleGAN eliminando su función de entrada de tamaño fijo y las capas de baja resolución.
Para preservar los detalles del marco, los desarrolladores entrenan a un codificador para extraer características de contenido de varias escalas del marco de entrada como una condición de contenido adicional. VToonify hereda la flexibilidad de control de estilo del modelo StyleGAN al colocarlo en el generador para destilar tanto sus datos como su modelo.
Artículo relacionado: Lambda Labs anunció un mezclador de imágenes de IA que puede combinar hasta cinco imágenes |
El marco VToonify hereda las características atractivas para el control de estilo flexible de los modelos actuales de toonificación de imágenes basados en StyleGAN y es compatible con ellos para expandirlos a video toonificación. Nuestro VToonify ofrece lo siguiente utilizando el modelo DualStyleGAN como base StyleGAN:
- Transferencia de estilo de estructuras basadas en ejemplares;
- Modificación del grado de estilo;
- Transferencia de estilo de color basado en ejemplares.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.