XLM-V: un nuevo método de modelos de lenguaje enmascarado multilingüe que intenta abordar el problema del cuello de botella del vocabulario
En Resumen
El artículo plantea el siguiente problema: modelos de lenguaje aumentan los parámetros, crecen en profundidad, pero el vocabulario sigue siendo el mismo en tamaño.
Los investigadores comienzan a entrenar un nuevo modelo con 1 millón de tokens del vocabulario de una manera inesperada.
Los investigadores estaban decididos a ver qué tipo de mejora podían hacer con un aumento tan significativo de tokens.
La cuestión planteada por el artículo titulado “XLM-V: Superación del cuello de botella de vocabulario en modelos de lenguaje enmascarado multilingüe” es que cuando los parámetros y la profundidad de los modelos de lenguaje aumentan, el tamaño de su vocabulario permanece sin cambios. Por ejemplo, el modelo mT5 tiene 13B parámetros pero un vocabulario de 250K palabras que admite más de 100 idiomas. Por lo tanto, cada idioma tiene aproximadamente 2,500 tokens únicos, que obviamente es un número muy pequeño.
¿Qué acción toman los autores? Comienzan a entrenar un nuevo modelo con 1 millón de tokens del vocabulario de una manera inesperada. XLM-R existía anteriormente, sin embargo, con esta actualización, se convertirá en XLM-V. Los escritores estaban decididos a ver qué tipo de mejora podían hacer con un aumento tan significativo en las fichas.
Artículo relacionado: Se espera que los costos de capacitación del modelo de IA aumenten de $ 100 millones a $ 500 millones para 2030 |
¿Qué pasa con XLM-V es nuevo que XLM-R no?
la mejora Modelos multilingües with Language-Clustered Vocabularies se utiliza para construir vectores de representación léxica para cada idioma de la siguiente manera: para cada idioma en el conjunto de idiomas, forman un vector binario, cada elemento del cual es una palabra específica en el idioma. Uno indica que la palabra está incluida en el diccionario del idioma (puede ver una imagen con una descripción gráfica en los archivos adjuntos). Sin embargo, al crear un vector utilizando la probabilidad logarítmica negativa de ocurrencia de cada lexema, los autores mejoran la forma en que se hacen las referencias. .
- Los vectores se agrupan después de eso. Además, se entrena un modelo de oración en cada grupo en particular para detener la transferencia de vocabulario entre idiomas léxicamente no relacionados.
- El ALP evalúa la capacidad de un diccionario para representar un idioma específico.
- Utilizando el algoritmo para crear ULM diccionarios es el siguiente paso. que comienza con un gran diccionario inicial y lo recorta gradualmente hasta que la cantidad de tokens está por debajo de un cierto umbral para el tamaño del diccionario.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.