Informe de noticias Tecnología
29 de mayo de 2023

Google enseñó a AI modelo Flamingo a escribir descripciones para videos de YouTube

En Resumen

Flamingo resuelve el problema de la dificultad de encontrar videos cortos a través de la búsqueda mediante la creación automática de descripciones.

Google DeepMind, el laboratorio de investigación de IA, ha desarrollado un modelo de lenguaje visual llamado Flamingo capaz de escribir descripciones para videos cortos en YouTube. El problema que aborda Flamingo es que los videos cortos a menudo son difíciles de ubicar a través de la búsqueda debido a la falta de información necesaria en la descripción. El modelo Flamingo resuelve este problema al generar automáticamente textos para millones de videoclips cortos en sitios de alojamiento de videos, que se utilizan "detrás de escena" para facilitar la búsqueda. Aunque los autores del video no verán los metadatos, ayuda a los espectadores a encontrar y navegar por los cortos. Actualmente, Flamingo ha estado trabajando en nuevos clips y procesando videos antiguos subidos a YouTube durante mucho tiempo.

Google enseñó a AI modelo Flamingo a escribir descripciones para videos de YouTube
menteprofunda.com

En el pasado, Google introdujo un algoritmo que permite a las personas buscar información dentro de los videos usando la barra de búsqueda. Recientemente, TwelveLabs recaudó $12 millones de inversionistas para un desarrollo similar. Estas herramientas crean nuevas oportunidades para el video. creadores de contenido para aumentar su alcance y visibilidad. Al aprovechar la IA para mejorar y simplificar el proceso de búsqueda y el descubrimiento de contenido de formato breve, DeepMind y otras empresas emergentes similares están revolucionando el video. servicios de streaming. Están contribuyendo al desarrollo de tecnologías de búsqueda más inteligentes y eficientes, haciendo que sea aún más sencillo para los espectadores encontrar contenido que realmente les interese.

La inteligencia artificial está desempeñando un papel importante en la mejora de las tecnologías de búsqueda. Al aprovechar la IA, el modelo Flamingo puede escanear y serializar el contenido y generar textos que resumen el contenido para ayudar a los usuarios a navegar. El modelo Flamingo utiliza redes neuronales profundas para generar descripciones textuales de un videoclip basadas en el contenido visual y de audio del video. Puede capturar los componentes auditivos y visuales del contenido de formato breve y transformarlos en un resumen que sea fácil de buscar y acceder para los usuarios.

El uso de IA puede ayudar a identificar información importante para los usuarios, que podría perderse en los esfuerzos manuales de los creadores al agregar descripciones. El esfuerzo que requiere mucho tiempo para capturar manualmente cada detalle no siempre es práctico, especialmente con el flujo constante de contenido de video de formato corto que se carga en plataformas como YouTube. Esto puede generar confusión y frustración en el usuario al buscar contenido específico de formato corto. Sin embargo, con el uso de modelos de lenguaje visual, como Flamingo, los metadatos se pueden generar automáticamente para proporcionar un resumen de fácil acceso, lo que ahorra tiempo y hace que el proceso de búsqueda sea más eficiente y preciso.

Flamingo establece nuevos modelos de lenguaje visual de última generación para tareas abiertas

Los detalles más importantes son la introducción de Flamingo, un único modelo de lenguaje visual (VLM) que establece un nuevo estado del arte en el aprendizaje de pocos disparos en una amplia gama de tareas multimodales abiertas. Flamingo es un modelo de lenguaje visual único (VLM) quedefines aprendizaje de pocas tomas a través de una amplia gama de actividades multimodales abiertas. recibe un puntual que consiste en imágenes, videos y texto intercalados como entrada y salida del idioma asociado. La interfaz visual y de texto de Flamingo, como las de los grandes modelos de lenguaje (LLM), puede conducir el modelo hacia el logro de una meta multimodal. Se le puede hacer una pregunta al modelo con una imagen nueva o un video y luego construir una respuesta, con algunos pares de ejemplos de entradas visuales y respuestas de texto esperadas compuestas en el aviso de Flamingo.

Flamingo es un modelo de lenguaje visual que fusiona grandes modelos de lenguaje con poderosas representaciones visuales y se entrena en una combinación de datos multimodales complementarios a gran escala que provienen solo de la web sin usar ningún dato anotado con fines de aprendizaje automático. Supera todos los enfoques de aprendizaje previos de pocos disparos cuando se dan tan solo cuatro ejemplos por tarea y supera a los métodos que están ajustados y optimizados para cada tarea de forma independiente y utilizan múltiples órdenes de magnitud más datos específicos de la tarea. También probó las capacidades cualitativas del modelo más allá de sus puntos de referencia actuales, como subtitular imágenes relacionadas con el género y el color de la piel y ejecutar los subtítulos generados a través de la API Perspective de Google, que evalúa la toxicidad del texto. Flamingo hace posible adaptarse de manera eficiente a estos ejemplos y otras tareas sobre la marcha sin modificar el modelo y demuestra capacidades de diálogo multimodal listas para usar.

Flamingo es una familia de modelos de uso general que se puede aplicar a tareas de comprensión de imágenes y videos con un mínimo de ejemplos específicos de tareas. Es una familia de modelos de uso general efectiva y eficiente que se puede aplicar a tareas de comprensión de imágenes y videos con un mínimo de ejemplos específicos de tareas. Las habilidades de Flamingo allanan el camino hacia interacciones ricas con modelos de lenguaje visual aprendidos que pueden permitir una mejor interpretabilidad y nuevas aplicaciones emocionantes, como un asistente visual.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
Empresa Informe de noticias Tecnología
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
3 de mayo de 2024
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
Industrias Informe de noticias Tecnología
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
3 de mayo de 2024
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
Industrias Informe de noticias Tecnología
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
3 de mayo de 2024
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
Empresa Informe de noticias Tecnología
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
3 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.