Informe de noticias Tecnología
Febrero 06, 2023

XLM-V: un nuevo método de modelos de lenguaje enmascarado multilingüe que intenta abordar el problema del cuello de botella del vocabulario

En Resumen

El artículo plantea el siguiente problema: modelos de lenguaje aumentan los parámetros, crecen en profundidad, pero el vocabulario sigue siendo el mismo en tamaño.

Los investigadores comienzan a entrenar un nuevo modelo con 1 millón de tokens del vocabulario de una manera inesperada.

Los investigadores estaban decididos a ver qué tipo de mejora podían hacer con un aumento tan significativo de tokens.

La cuestión planteada por el artículo titulado “XLM-V: Superación del cuello de botella de vocabulario en modelos de lenguaje enmascarado multilingüe” es que cuando los parámetros y la profundidad de los modelos de lenguaje aumentan, el tamaño de su vocabulario permanece sin cambios. Por ejemplo, el modelo mT5 tiene 13B parámetros pero un vocabulario de 250K palabras que admite más de 100 idiomas. Por lo tanto, cada idioma tiene aproximadamente 2,500 tokens únicos, que obviamente es un número muy pequeño.

XLM-V: un nuevo método de modelos de lenguaje enmascarado multilingüe que intenta abordar el problema del cuello de botella del vocabulario
@ Midjourney / Shalv

¿Qué acción toman los autores? Comienzan a entrenar un nuevo modelo con 1 millón de tokens del vocabulario de una manera inesperada. XLM-R existía anteriormente, sin embargo, con esta actualización, se convertirá en XLM-V. Los escritores estaban decididos a ver qué tipo de mejora podían hacer con un aumento tan significativo en las fichas.

Artículo relacionado: Se espera que los costos de capacitación del modelo de IA aumenten de $ 100 millones a $ 500 millones para 2030

¿Qué pasa con XLM-V es nuevo que XLM-R no?

¿Qué pasa con XLM-V es nuevo que XLM-R no?

la mejora Modelos multilingües with Language-Clustered Vocabularies se utiliza para construir vectores de representación léxica para cada idioma de la siguiente manera: para cada idioma en el conjunto de idiomas, forman un vector binario, cada elemento del cual es una palabra específica en el idioma. Uno indica que la palabra está incluida en el diccionario del idioma (puede ver una imagen con una descripción gráfica en los archivos adjuntos). Sin embargo, al crear un vector utilizando la probabilidad logarítmica negativa de ocurrencia de cada lexema, los autores mejoran la forma en que se hacen las referencias. .

  1. Los vectores se agrupan después de eso. Además, se entrena un modelo de oración en cada grupo en particular para detener la transferencia de vocabulario entre idiomas léxicamente no relacionados.
  2. El ALP evalúa la capacidad de un diccionario para representar un idioma específico.
  3. Utilizando el algoritmo para crear ULM diccionarios es el siguiente paso. que comienza con un gran diccionario inicial y lo recorta gradualmente hasta que la cantidad de tokens está por debajo de un cierto umbral para el tamaño del diccionario.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
Empresa Informe de noticias Tecnología
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
3 de mayo de 2024
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
Industrias Informe de noticias Tecnología
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
3 de mayo de 2024
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
Industrias Informe de noticias Tecnología
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
3 de mayo de 2024
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
Empresa Informe de noticias Tecnología
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
3 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.