Industrias Informe de noticias
08 de agosto de 2023

Alibaba presenta el modelo de lenguaje Qwen-7B de código abierto

Alibaba ha presentado su Large Language Model (LLM) de código abierto denominado Qwen-7B, marcando su entrada inaugural en el ámbito de los LLM de acceso público. Este modelo se basa en 7 mil millones de parámetros.

Alibaba presenta el modelo de lenguaje Qwen-7B de código abierto

Para ponerlo en contexto, Qwen-7B se sometió a un entrenamiento utilizando 2.2 billones de tokens. El tamaño del contexto establecido durante esta fase de capacitación fue 2048, mientras que los usuarios pueden ampliarlo a un máximo de 8192 durante la prueba. En comparación, Llama-2, otro LLM, ofrece un tamaño de contexto de 4096.

Los puntos de referencia son esenciales para evaluar el rendimiento de estos modelos y, en este ámbito, los desarrolladores chinos afirman que el Qwen-7B ha superado Llama-2. Una métrica que se destaca es el punto de referencia de codificación Human-Eval, donde Qwen-7B obtiene una puntuación de 24.4 frente a Llama-2 es 12.8. Sin embargo, es prudente ver estas cifras con cierto grado de cautela. Algunos puntos de referencia indican que Qwen-7B supera no solo al modelo base de LLama-2-7B pero también el LLaMA-Variante 2-13B. Sin embargo, cuando se compara con las versiones refinadas de Llama-2, el margen de diferencia se vuelve más estrecho. Cabe señalar que sus desarrolladores no han detallado explícitamente la metodología de entrenamiento exacta de Qwen-7B.

En funcionalidad paralela a LLaMa2-chat, Qwen ha presentado una versión centrada en el chat llamada Qwen-7B-Chat. Este modelo está optimizado para interactuar con los usuarios e incorpora diversas herramientas y API para mejorar su capacidad de respuesta.

Aquellos con inclinación hacia los detalles técnicos estarían interesados ​​en saber que la base arquitectónica de Qwen-7B se parece a LLaMA. Sin embargo, existen distintas características que diferencian a Qwen-7B:

  1. Emplea incrustaciones desatadas.
  2. Se utiliza la incrustación posicional rotatoria.
  3. Se excluyen sesgos, a excepción de QKV en atención.
  4. Se prefiere RMSNorm sobre LayerNorm.
  5. En lugar del ReLU estándar, se incorpora SwiGLU.
  6. Se ha introducido la atención flash para acelerar el proceso de formación.
  7. El modelo consta de 32 capas, tiene una dimensión de incrustación de 4096 y tiene capacidad para 32 cabezales de atención.

En términos de licencia, Qwen-7B se alinea con Llama-2. Permite el uso comercial, pero con una estipulación sobre el volumen de usuarios. Mientras Llama-2 establece este límite en 700 millones de usuarios activos por mes, el umbral de Qwen-7B es 100 millones.

Quienes busquen un examen en profundidad pueden consultar el informe técnico disponible en GitHub. Además, una demostración de Qwen-7B, que se proporciona en idioma chino, es accesible para aquellos interesados ​​en una exploración práctica de las capacidades del modelo.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
Industrias Informe de noticias Tecnología
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
8 de mayo de 2024
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
Industrias Software Historias y comentarios Tecnología
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
8 de mayo de 2024
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
Empresa Industrias Informe de noticias
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
8 de mayo de 2024
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
Informe de noticias Tecnología
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
8 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.