Google supera el meta al lanzar un nuevo generador de IA de texto a video, Imagen Video
En Resumen
Imagen Video de Google intenta ayudar a que el generador de video se convierta en aplicaciones asesinas
Google no tardó mucho en responder a Make-a-Video de Meta. Mediante el uso de un mensaje de texto, Imagen Vídeo puede producir un video fantástico. Los resultados son un tremendo avance por encima del estado del arte a pesar de una serie de inconvenientes.
En comparación con el generador de inteligencia artificial de texto a video de Facebook Hacer un vídeo, los resultados son notablemente mejores. Sin embargo, esta estrategia también exigió más supervisión. A diferencia de Imagen Video, donde los micro trabajadores trabajaron duro para anotar las películas con descripciones escritas, Make-a-Scene usó videos sin etiquetas para la capacitación.
Entrar en los detalles de la arquitectura no tiene sentido; deberías leer sobre esto en el artículo esta página. Solo podemos confirmar que primero se generan 16 fotogramas a partir de la incrustación de texto del codificador T5 a una resolución de 48 × 24 con 3 fotogramas por segundo, y que luego se amplía mediante una serie de modelos de difusión en la película final de 128 fotogramas. a 1280×768 y 24 cuadros por segundo.
¿Qué es Imagen Vídeo?
Imagen Video es un método para crear videos condicionales de texto basado en una serie de modelos de difusión de video. Imagen Video produce películas de alta calidad de mensajes de texto combinando un modelo de producción de vídeo base con una serie de modelos de superresolución de vídeo espacial y temporal entrelazados. Repase las decisiones de diseño que tomó el equipo al ampliar el sistema como un sistema de alto nivel.definition text-to-video model, incluida la decisión de parametrizar en v los modelos de difusión y la selección de modelos de superresolución temporal y espacial totalmente convolucionales a resoluciones específicas. Además, valida y aplica los resultados de trabajos anteriores sobre la producción de imágenes basadas en la difusión al contexto de generación de video. Luego, los modelos de video se someten a una destilación progresiva con guía sin clasificador para un muestreo rápido y de alta calidad.
El equipo de investigación de Google afirma que el sistema acepta una descripción textual y genera una película de 16 fotogramas a tres cuadros por segundo con una resolución de 24 por 48 píxeles. El sistema escala y “predice” los cuadros adicionales, creando un video final con 128 cuadros a 24 cuadros por segundo y una resolución de 720p (1280×768). Se utilizaron 60 millones de pares imagen-texto y 14 millones de pares video-texto para entrenar Imagen Video.
Imagen Videos Muestras
Aunque sea simplemente porque usar IA para hacer videos es más rápido y menos costoso, tales tecnologías sin duda se emplearán en todas partes.
¿Interesado en leer más? Aquí hay algunos temas adicionales para revisar:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.