Microsoft ha presentado el modelo de lenguaje multimodal Otter para la comprensión visual basado en el conjunto de datos de texto visual instructivo masivo MIMIC-IT
En Resumen
Otter es un modelo de lenguaje visual (VLM) creado en la plataforma OpenFlamingo, diseñado para revolucionar la comprensión visual e interactuar con el contenido visual.
Nutria es un modelo de lenguaje visual (VLM) de última generación basado en el AbiertoFlamingo plataforma, y está configurado para mejorar la forma en que interactuamos con el contenido visual. Como parte del ambicioso proyecto Otter, Microsoft ha introducido un conjunto de datos de texto visual instructivo masivo llamado Imítalo. Este conjunto de datos contiene la asombrosa cantidad de 2.8 millones de pares de instrucciones multimodales vinculadas con respuestas, incluidos 2.2 millones de instrucciones únicas derivadas de imágenes y videos. El conjunto de datos se seleccionó meticulosamente para simular diálogos naturales, cubriendo escenarios como descripciones de imágenes y videos, comparaciones de imágenes, respuestas a preguntas, comprensión de escenas y más. Estos pares de instrucción-respuesta de alta calidad se generaron usando el poderoso ChatGPT-0301 API, lo que representa una inversión de aproximadamente $20k.
El conjunto de datos MIMIC-IT juega un papel crucial en el entrenamiento del modelo Otter, que ha sido diseñado para sobresalir en la comprensión de escenas visuales, el razonamiento y las conclusiones lógicas. Cada par de instrucción-respuesta en el conjunto de datos está acompañado por información multimodal en contexto, lo que crea contextos conversacionales que permiten al modelo captar los matices de la percepción, el razonamiento y la planificación. Para escalar el proceso de anotación, Microsoft empleó una canalización de anotación automática llamada Syphus, que combina la experiencia humana con las capacidades de GPT para garantizar la calidad y diversidad del conjunto de datos.
Usando el conjunto de datos MIMIC-IT, Microsoft entrenó el modelo Otter, un VLM a gran escala basado en la plataforma OpenFlamingo. A través de extensas evaluaciones en los puntos de referencia de la visión y el lenguaje, Otter ha demostrado una competencia notable en la percepción multimodal, el razonamiento y el aprendizaje en contexto. Las evaluaciones humanas han revelado su capacidad para alinearse de manera efectiva con las intenciones del usuario, lo que la convierte en una herramienta invaluable para interpretar y ejecutar tareas complejas basadas en instrucciones en lenguaje natural.
Otter v0.2 ha ampliado sus capacidades para admitir entradas de video, lo que le permite marcos de proceso y múltiples imágenes como ejemplos en contexto.
El lanzamiento del conjunto de datos MIMIC-IT, junto con la canalización de recopilación de respuestas e instrucciones, los puntos de referencia y el modelo Otter, representa un hito significativo en el campo del procesamiento multimodal del lenguaje. Al poner estos recursos a disposición de investigadores y desarrolladores, Microsoft tiene como objetivo fomentar la innovación y la colaboración, permitiendo la integración de Otter y OpenFlamingo en canalizaciones de inferencia y capacitación personalizadas utilizando el popular Abrazando la cara Marco de transformadores.
El conjunto de datos MIMIC-IT abarca una amplia gama de escenarios de la vida real, lo que permite que los modelos de visión y lenguaje (VLM) comprendan escenas generales, razonen sobre el contexto y diferencien inteligentemente entre observaciones. Esto abre posibilidades, como el desarrollo de modelos egocéntricos de asistentes visuales que pueden responder preguntas como: “Oye, ¿crees que dejé las llaves sobre la mesa?”.
MIMIC-IT no se limita al idioma inglés. También es compatible con varios idiomas, incluidos chino, coreano, japonés, alemán, francés, español y árabe. Este soporte multilingüe permite que una audiencia global más grande se beneficie de la conveniencia y los avances que trae la IA.
Para garantizar la generación de pares instrucción-respuesta de alta calidad, Microsoft ha presentado Syphus, una canalización automatizada que incorpora mensajes del sistema, anotaciones visuales y ejemplos en contexto como indicaciones para ChatGPT. Esto garantiza la confiabilidad y precisión de los pares de instrucción-respuesta generados en varios idiomas.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.