Informe de noticias Tecnología
Sábado, Junio 12, 2023

Microsoft ha presentado el modelo de lenguaje multimodal Otter para la comprensión visual basado en el conjunto de datos de texto visual instructivo masivo MIMIC-IT

En Resumen

Otter es un modelo de lenguaje visual (VLM) creado en la plataforma OpenFlamingo, diseñado para revolucionar la comprensión visual e interactuar con el contenido visual.

Nutria es un modelo de lenguaje visual (VLM) de última generación basado en el AbiertoFlamingo plataforma, y ​​está configurado para mejorar la forma en que interactuamos con el contenido visual. Como parte del ambicioso proyecto Otter, Microsoft ha introducido un conjunto de datos de texto visual instructivo masivo llamado Imítalo. Este conjunto de datos contiene la asombrosa cantidad de 2.8 millones de pares de instrucciones multimodales vinculadas con respuestas, incluidos 2.2 millones de instrucciones únicas derivadas de imágenes y videos. El conjunto de datos se seleccionó meticulosamente para simular diálogos naturales, cubriendo escenarios como descripciones de imágenes y videos, comparaciones de imágenes, respuestas a preguntas, comprensión de escenas y más. Estos pares de instrucción-respuesta de alta calidad se generaron usando el poderoso ChatGPT-0301 API, lo que representa una inversión de aproximadamente $20k.

Microsoft ha presentado el modelo de lenguaje multimodal Otter para la comprensión visual basado en el conjunto de datos de texto visual instructivo masivo MIMIC-IT

El conjunto de datos MIMIC-IT juega un papel crucial en el entrenamiento del modelo Otter, que ha sido diseñado para sobresalir en la comprensión de escenas visuales, el razonamiento y las conclusiones lógicas. Cada par de instrucción-respuesta en el conjunto de datos está acompañado por información multimodal en contexto, lo que crea contextos conversacionales que permiten al modelo captar los matices de la percepción, el razonamiento y la planificación. Para escalar el proceso de anotación, Microsoft empleó una canalización de anotación automática llamada Syphus, que combina la experiencia humana con las capacidades de GPT para garantizar la calidad y diversidad del conjunto de datos.

Microsoft ha presentado el modelo de lenguaje multimodal Otter para la comprensión visual basado en el conjunto de datos de texto visual instructivo masivo MIMIC-IT

Usando el conjunto de datos MIMIC-IT, Microsoft entrenó el modelo Otter, un VLM a gran escala basado en la plataforma OpenFlamingo. A través de extensas evaluaciones en los puntos de referencia de la visión y el lenguaje, Otter ha demostrado una competencia notable en la percepción multimodal, el razonamiento y el aprendizaje en contexto. Las evaluaciones humanas han revelado su capacidad para alinearse de manera efectiva con las intenciones del usuario, lo que la convierte en una herramienta invaluable para interpretar y ejecutar tareas complejas basadas en instrucciones en lenguaje natural.

Otter v0.2 ha ampliado sus capacidades para admitir entradas de video, lo que le permite marcos de proceso y múltiples imágenes como ejemplos en contexto.

El lanzamiento del conjunto de datos MIMIC-IT, junto con la canalización de recopilación de respuestas e instrucciones, los puntos de referencia y el modelo Otter, representa un hito significativo en el campo del procesamiento multimodal del lenguaje. Al poner estos recursos a disposición de investigadores y desarrolladores, Microsoft tiene como objetivo fomentar la innovación y la colaboración, permitiendo la integración de Otter y OpenFlamingo en canalizaciones de inferencia y capacitación personalizadas utilizando el popular Abrazando la cara Marco de transformadores.

El conjunto de datos MIMIC-IT abarca una amplia gama de escenarios de la vida real, lo que permite que los modelos de visión y lenguaje (VLM) comprendan escenas generales, razonen sobre el contexto y diferencien inteligentemente entre observaciones. Esto abre posibilidades, como el desarrollo de modelos egocéntricos de asistentes visuales que pueden responder preguntas como: “Oye, ¿crees que dejé las llaves sobre la mesa?”.

MIMIC-IT no se limita al idioma inglés. También es compatible con varios idiomas, incluidos chino, coreano, japonés, alemán, francés, español y árabe. Este soporte multilingüe permite que una audiencia global más grande se beneficie de la conveniencia y los avances que trae la IA.

Para garantizar la generación de pares instrucción-respuesta de alta calidad, Microsoft ha presentado Syphus, una canalización automatizada que incorpora mensajes del sistema, anotaciones visuales y ejemplos en contexto como indicaciones para ChatGPT. Esto garantiza la confiabilidad y precisión de los pares de instrucción-respuesta generados en varios idiomas.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Notcoin planea distribuir el 5% de su suministro de tokens a 500,000 miembros de la comunidad y usuarios de Crypto Exchange
Industrias Informe de noticias Tecnología
Notcoin planea distribuir el 5% de su suministro de tokens a 500,000 miembros de la comunidad y usuarios de Crypto Exchange
13 de mayo de 2024
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
Empresa Industrias Historias y comentarios Tecnología
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
10 de mayo de 2024
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
Industrias Informe de noticias Tecnología
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
10 de mayo de 2024
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
Industrias Seguridad Wiki Software Historias y comentarios Tecnología
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
10 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.