OpenFlamingo: un nuevo marco de imagen a texto de código abierto de Meta AI y LAION
En Resumen
OpenFlamingo es una versión de código abierto del modelo Flamingo de DeepMind, construida sobre el LLaMA modelo de lenguaje grande.
Los desarrolladores esperan crear un sistema multimodal que pueda manejar los desafíos de visión y lenguaje e igualar GPT-4La fortaleza y adaptabilidad de en el manejo de entradas visuales y de texto.
La versión de código abierto del modelo Flamingo de DeepMind, AbiertoFlamingo, acaba de ser liberado. OpenFlamingo es fundamentalmente un marco que permite la capacitación y evaluación de modelos multimodales (LMM) de gran tamaño. OpenFlamingo está construido sobre el LLaMA Modelo de lenguaje grande desarrollado por Meta AI.
Las contribuciones de los desarrolladores a esta primera versión son las siguientes:
- Un conjunto de datos multimodal considerable que combina texto y secuencias visuales.
- Un punto de referencia para la evaluación del aprendizaje en contexto para actividades que incluyen la visión y el lenguaje.
- Una versión preliminar de nuestra LLaMAModelo OpenFlamingo-9B basado en.
A través de OpenFlamingo, los desarrolladores esperan crear un sistema multimodal que pueda manejar una variedad de desafíos de visión y lenguaje. El objetivo final es igualar GPT-4La fortaleza y adaptabilidad de en el manejo de entradas visuales y de texto. Para lograr este objetivo, los desarrolladores están desarrollando una versión de código abierto del modelo Flamingo de DeepMind, un LMM capaz de procesar y razonar sobre imágenes, vídeos y texto. Los desarrolladores se dedican a desarrollar modelos totalmente de código abierto porque creen que la transparencia es crucial para promover la cooperación, acelerar el desarrollo y democratizar el acceso a LMM de vanguardia.
Están proporcionando el punto de control inicial de nuestro modelo OpenFlamingo-9B. Aunque el modelo aún no está completamente optimizado, muestra la promesa del proyecto. Los desarrolladores pueden capacitar a mejores LMM al cooperar y obtener comentarios de la comunidad. Invitan al público a dar su opinión y agregar al repositorio para participar en el proceso de desarrollo.
La implementación se parece mucho a la de Flamingo. Los modelos de Flamingo deben entrenarse en conjuntos de datos web a gran escala con texto intercalado y gráficos para equiparlos con habilidades de aprendizaje de pocos disparos en contexto. La misma arquitectura que se sugirió en el estudio original de Flamingo (remuestreadores de Perceiver, capas de atención cruzada) se implementa en OpenFlamingo. Pero, dado que los datos de entrenamiento de Flamingo no son accesibles para el público en general, los desarrolladores usan conjuntos de datos de código abierto para entrenar modelos. El punto de control OpenFlamingo-9B recientemente publicado se entrenó específicamente en 10 millones de muestras de LAION-2B y 5 millones de muestras del nuevo conjunto de datos multimodal C4.
Los desarrolladores también están incluyendo un punto de control de nuestro LMM OpenFlamingo-9B inacabado, que se basa en LLaMA 7B y CLIP ViT/L-14, como parte del lanzamiento. Aunque este concepto aún se está desarrollando, es posible que la comunidad ya se beneficie enormemente de él.
Para empezar, mire el GitHub fuente y manifestación.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.