Informe de noticias Tecnología
12 de septiembre de 2023

FLM-101B: un modelo de lenguaje de escala 101B súper rentable que compite con los principales modelos de IA

En Resumen

El LLM chino, LM-101B, puede formarse con un presupuesto de 100 dólares y logra un rendimiento comparable al de modelos conocidos como GPT-3 y GLM-130B.

Investigadores chinos han presentado un nuevo LLM, el FLM-101B, un LLM exclusivo para decodificadores que cuenta con la notable cifra de 101 mil millones de parámetros. Este desarrollo proporciona una alternativa rentable tanto para la investigación como para aplicaciones prácticas.

FLM-101B: un modelo de lenguaje de escala 101B súper rentable que compite con los principales modelos de IA
Relacionado: Se espera que los costos de capacitación del modelo de IA aumenten de $ 100 millones a $ 500 millones para 2030

Lo que distingue al FLM-101B es su rendimiento excepcional logrado con un presupuesto relativamente modesto. Si bien es bien sabido que entrenar LLM desde cero puede requerir inversiones astronómicas, los creadores de FLM-101B han demostrado que es posible entrenar un modelo con 101 mil millones de parámetros usando solo un presupuesto de 100 mil dólares.

Los resultados experimentales son nada menos que impresionantes. FLM-101B ha demostrado niveles de rendimiento comparables a los establecidos y que requieren muchos recursos. modelos como GPT-3 y GLM-130B. Esta comparación resalta el tremendo potencial de este modelo rentable, particularmente en puntos de referencia de coeficiente intelectual con contextos complejos que no están presentes en los datos de entrenamiento.

En una medida que subraya su compromiso con el avance de la investigación y el desarrollo de la IA, los creadores del FLM-101B han hecho que este modelo sea de código abierto. Los investigadores y desarrolladores de todo el mundo ahora pueden acceder y aprovechar este LLM de escala 101B para diversas aplicaciones, que abarcan tanto el idioma chino como el inglés.

El modelo FLM-101B emplea un enfoque de entrenamiento único. Acumula rápidamente conocimientos a partir de un modelo más pequeño de 16 mil millones de parámetros en las etapas iniciales de entrenamiento y escala progresivamente hasta 101 mil millones de parámetros. Este enfoque incremental reduce significativamente los costos de capacitación, lo que lo hace financieramente viable para una gama más amplia de proyectos.

Una característica destacada de FLM-101B es su soporte para una expansión eficiente del tamaño de la ventana durante la inferencia. Esto se logra mediante el uso de la incrustación de posición giratoria xPos, lo que permite que el modelo maneje un contexto más amplio, mejorando su adaptabilidad y usabilidad.

FLM-101B se entrenó en un grupo de 24 servidores GPU DGX-A800 en menos de 26 días. Esta impresionante hazaña subraya la escalabilidad del modelo y la utilización eficiente de los recursos. El código base de entrenamiento del modelo, adaptado de Megatron-LM, pronto estará disponible como código abierto, proporcionando información valiosa para la comunidad de IA.

Los creadores de FLM-101B reconocen limitaciones potenciales, incluida la exposición del modelo a ejemplos inseguros en el corpus de entrenamiento debido a la naturaleza abierta del conjunto de datos. Esta advertencia sirve como recordatorio de la importancia del uso responsable de la IA y moderación de contenido.

Si bien FLM-101B ha logrado resultados notables, los creadores reconocen áreas de mejora. El proceso de inferencia del modelo, si bien es poderoso, aún no está completamente optimizado, lo que lleva a un mayor uso de recursos y una velocidad reducida. Sin embargo, hay planes en marcha para introducir Flash Attention en la inferencia, abordando esta limitación.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
Industrias Informe de noticias Tecnología
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
8 de mayo de 2024
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
Industrias Software Historias y comentarios Tecnología
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
8 de mayo de 2024
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
Empresa Industrias Informe de noticias
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
8 de mayo de 2024
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
Informe de noticias Tecnología
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
8 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.