Sábado, Junio 12, 2023

Los 30+ mejores modelos de transformadores en IA: qué son y cómo funcionan

Publicado: 12 de junio de 2023 a las 6:52 am Actualizado: 12 de junio de 2023 a las 6:52 am

Editado y verificado: 12 de junio de 2023 a las 6:52 am

En los últimos meses, han surgido numerosos modelos de Transformer en AI, cada uno con nombres únicos y, a veces, divertidos. Sin embargo, es posible que estos nombres no proporcionen mucha información sobre lo que realmente hacen estos modelos. Este artículo tiene como objetivo proporcionar una lista completa y sencilla de los modelos de transformadores más populares. Clasificará estos modelos y también introducirá aspectos e innovaciones importantes dentro de la familia Transformer. La lista superior cubrirá modelos entrenados a través del aprendizaje autosupervisado, como BERT o GPT-3, así como modelos que reciben formación adicional con implicación humana, como el InstructGPT modelo utilizado por ChatGPT.

Consejos importantes
Esta guía está diseñado para proporcionar conocimientos completos y habilidades prácticas en ingeniería rápida para principiantes y estudiantes avanzados.
hay muchos cursos disponible para las personas que desean obtener más información sobre la IA y sus tecnologías relacionadas.
Echa un vistazo a la Los 10 mejores aceleradores de IA que se espera lideren el mercado en términos de rendimiento.

Índice del contenido

¿Qué son los transformadores en IA?
¿Qué son los codificadores y decodificadores en IA?
¿Qué son las capas de atención en IA?
¿Qué son los modelos ajustados en IA?
¿Por qué los Transformers son el futuro de la IA?
3 tipos de arquitecturas de preentrenamiento
8 tipos de tareas para modelos preentrenados
Los 30+ mejores transformadores en IA
Preguntas Frecuentes

¿Qué son los transformadores en IA?

Los transformadores son un tipo de modelos de aprendizaje profundo que se introdujeron en un trabajo de investigación llamado "La atención es todo lo que necesitas” por los investigadores de Google en 2017. Este documento ha ganado un reconocimiento inmenso, acumulando más de 38,000 citas en solo cinco años.

La arquitectura Transformer original es una forma específica de modelos de codificador-decodificador que ganó popularidad antes de su introducción. Estos modelos se basan predominantemente en LSTM y otras variaciones de redes neuronales recurrentes (RNN), siendo la atención sólo uno de los mecanismos utilizados. Sin embargo, el artículo de Transformer propuso una idea revolucionaria de que la atención podría servir como el único mecanismo para establecer dependencias entre la entrada y la salida.

¿Qué son los transformadores en IA? — Crédito: dominodatalab.com

En el contexto de Transformers, la entrada consiste en una secuencia de tokens, que pueden ser palabras o subpalabras en el procesamiento del lenguaje natural (PNL). Las subpalabras se emplean comúnmente en los modelos de PNL para abordar el problema de las palabras fuera del vocabulario. La salida del codificador produce una representación de dimensión fija para cada token, junto con una incrustación separada para toda la secuencia. El decodificador toma la salida del codificador y genera una secuencia de tokens como salida.

Desde la publicación del artículo de Transformer, modelos populares como BERTI y GPT Han adoptado aspectos de la arquitectura original, ya sea utilizando los componentes del codificador o del decodificador. La similitud clave entre estos modelos radica en la arquitectura de capas, que incorpora mecanismos de autoatención y capas de retroalimentación. En Transformers, cada token de entrada recorre su propio camino a través de las capas mientras mantiene dependencias directas con todos los demás tokens en la secuencia de entrada. Esta característica única permite el cálculo paralelo y eficiente de representaciones de tokens contextuales, una capacidad que no es factible con modelos secuenciales como los RNN.

Si bien este artículo solo rasca la superficie de la arquitectura de Transformer, proporciona un vistazo a sus aspectos fundamentales. Para una comprensión más completa, recomendamos consultar el artículo de investigación original o la publicación The Illustrated Transformer.

¿Qué son los codificadores y decodificadores en IA?

Imagina que tienes dos modelos, un codificador y un decodificador, el trabajar en conjunto como un equipo El codificador toma una entrada y la convierte en un vector de longitud fija. Luego, el decodificador toma ese vector y lo transforma en una secuencia de salida. Estos modelos se entrenan juntos para asegurarse de que la salida coincida con la entrada lo más cerca posible.

Tanto el codificador como el decodificador tenían varias capas. Cada capa del codificador tenía dos subcapas: una capa de autoatención de varios cabezales y una red de avance simple. La capa de autoatención ayuda a cada token en la entrada a comprender las relaciones con todos los demás tokens. Estas subcapas también tienen una conexión residual y una normalización de capas para que el proceso de aprendizaje sea más fluido.

El cabezal múltiple del decodificador capa de autoatención funciona un poco diferente al del codificador. Enmascara las fichas a la derecha de la ficha en la que se está enfocando. Esto asegura que el decodificador solo mire los tokens que vienen antes del que está tratando de predecir. Esta atención de múltiples cabezas enmascarada ayuda al decodificador a generar predicciones precisas. Además, el decodificador incluye otra subcapa, que es una capa de atención de varios cabezales sobre todas las salidas del codificador.

Es importante tener en cuenta que estos detalles específicos se han modificado en diferentes variaciones del modelo Transformer. Modelos como BERT y GPT, por ejemplo, se basan en el aspecto codificador o decodificador de la arquitectura original.

¿Qué son las capas de atención en IA?

En la arquitectura del modelo que discutimos anteriormente, las capas de atención de múltiples cabezas son los elementos especiales que lo hacen poderoso. Pero, ¿qué es exactamente la atención? Piense en ello como una función que asigna una pregunta a un conjunto de información y da una salida. Cada token en la entrada tiene una consulta, una clave y un valor asociados. La representación de salida de cada token se calcula tomando una suma ponderada de los valores, donde el peso de cada valor está determinado por qué tan bien coincide con la consulta.

Los transformadores usan una función de compatibilidad llamada producto punto escalado para calcular estos pesos. Lo interesante de la atención en Transformers es que cada token sigue su propia ruta de cálculo, lo que permite el cálculo paralelo de todos los tokens en la secuencia de entrada. Son simplemente múltiples bloques de atención que calculan de forma independiente las representaciones para cada token. Estas representaciones luego se combinan para crear la representación final del token.

En comparación con otros tipos de redes como recurrentes y redes convolucionales, las capas de atención tienen algunas ventajas. Son computacionalmente eficientes, lo que significa que pueden procesar información rápidamente. También tienen una mayor conectividad, lo que es útil para capturar relaciones a largo plazo en secuencias.

¿Qué son los modelos ajustados en IA?

Modelos de cimentación son modelos poderosos que están entrenados en una gran cantidad de datos generales. Luego se pueden adaptar o afinar para tareas específicas entrenándolos en un conjunto más pequeño de datos específicos del objetivo. Este enfoque, popularizado por el Papel BERT, ha llevado al dominio de los modelos basados en Transformer en las tareas de aprendizaje automático relacionadas con el lenguaje.

En el caso de modelos como BERT, producen representaciones de tokens de entrada pero no realizan tareas específicas por sí mismos. Para hacerlos útiles, adicional capas neurales se agregan en la parte superior y el modelo se entrena de extremo a extremo, un proceso conocido como ajuste fino. Sin embargo, con modelos generativos como GPT, el enfoque es ligeramente diferente. GPT es un modelo de lenguaje decodificador entrenado para predecir la siguiente palabra en una oración. Al entrenar con grandes cantidades de datos web, GPT puede generar resultados razonables basados en consultas o indicaciones de entrada.

Para hacer GPT más útil, OpenAI los investigadores desarrollaron InstruirGPT, que está capacitado para seguir instrucciones humanas. Esto se logra mediante un ajuste fino GPT utilizando datos etiquetados por humanos de diversas tareas. InstruirGPT es capaz de realizar una amplia gama de tareas y es utilizado por motores populares como ChatGPT.

El ajuste fino también se puede utilizar para crear variantes de modelos de base optimizados para propósitos específicos más allá del modelado del lenguaje. Por ejemplo, existen modelos ajustados para tareas relacionadas con la semántica, como la clasificación de texto y la recuperación de búsquedas. Además, los codificadores de transformadores se han ajustado con éxito dentro de tareas múltiples marcos de aprendizaje para realizar múltiples tareas semánticas utilizando un único modelo compartido.

Hoy en día, el ajuste fino se utiliza para crear versiones de modelos básicos que pueden utilizar una gran cantidad de usuarios. El proceso implica generar respuestas a la entrada. indicaciones y hacer que los humanos clasifiquen los resultados. Esta clasificación se utiliza para entrenar a un modelo de recompensa, que asigna puntuaciones a cada salida. Aprendizaje por refuerzo con retroalimentación humana luego se emplea para entrenar aún más el modelo.

¿Por qué los Transformers son el futuro de la IA?

Los transformadores, un tipo de modelo poderoso, se demostraron por primera vez en el campo de la traducción de idiomas. Sin embargo, los investigadores se dieron cuenta rápidamente de que los Transformers se podían usar para varias tareas relacionadas con el lenguaje entrenándolos en una gran cantidad de texto sin etiquetar y luego ajustándolos en un conjunto más pequeño de datos etiquetados. Este enfoque permitió a Transformers capturar un conocimiento significativo sobre el lenguaje.

La arquitectura Transformer, originalmente diseñada para tareas de lenguaje, también se ha aplicado a otras aplicaciones como generando imágenes, audio, música e incluso acciones. Esto ha convertido a Transformers en un componente clave en el campo de la IA generativa, que está cambiando varios aspectos de la sociedad.

La disponibilidad de herramientas y marcos como PyTorch y TensorFlow ha jugado un papel crucial en la adopción generalizada de los modelos Transformer. Empresas como Huggingface han construido su negocio alrededor de la idea de comercializar bibliotecas Transformer de código abierto y hardware especializado como Hopper Tensor Cores de NVIDIA ha acelerado aún más la velocidad de entrenamiento e inferencia de estos modelos.

Una aplicación notable de Transformers es ChatGPT, un chatbot lanzado por OpenAI. Se hizo increíblemente popular, llegando a millones de usuarios en un período corto. OpenAI También ha anunciado el lanzamiento de GPT-4, una versión más potente capaz de lograr un rendimiento similar al humano en tareas como exámenes médicos y legales.

El impacto de los Transformers en el campo de la IA y su amplia gama de aplicaciones es innegable. Ellos tienen transformado el camino abordamos tareas relacionadas con el lenguaje y estamos allanando el camino para nuevos avances en IA generativa.

3 tipos de arquitecturas de preentrenamiento

La arquitectura de Transformer, que originalmente constaba de un codificador y un decodificador, ha evolucionado para incluir diferentes variaciones basadas en necesidades específicas. Analicemos estas variaciones en términos simples.

Preentrenamiento del codificador: Estos modelos se centran en la comprensión de oraciones o pasajes completos. Durante el preentrenamiento, el codificador se usa para reconstruir tokens enmascarados en la oración de entrada. Esto ayuda al modelo a aprender a comprender el contexto general. Dichos modelos son útiles para tareas como clasificación de texto, vinculación y respuesta de preguntas extractivas.
Preentrenamiento del decodificador: Los modelos de decodificadores están entrenados para generar el siguiente token en función de la secuencia anterior de tokens. Se conocen como modelos de lenguaje autorregresivos. Las capas de autoatención en el decodificador solo pueden acceder a tokens antes de un token dado en la oración. Estos modelos son ideales para tareas que involucran la generación de texto.
Transformador (Codificador-Decodificador) Preentrenamiento: Esta variación combina los componentes codificador y decodificador. Las capas de autoatención del codificador pueden acceder a todos los tokens de entrada, mientras que las capas de autoatención del decodificador solo pueden acceder a los tokens anteriores a un token determinado. Esta arquitectura permite que el decodificador utilice las representaciones aprendidas por el codificador. Los modelos de codificador-decodificador son adecuados para tareas como resumen, traducción o respuesta generativa a preguntas.

Los objetivos de preentrenamiento pueden implicar la eliminación de ruido o el modelado de lenguaje causal. Estos objetivos son más complejos para los modelos codificador-decodificador en comparación con los modelos solo codificador o solo decodificador. La arquitectura de Transformer tiene diferentes variaciones según el enfoque del modelo. Ya sea para comprender oraciones completas, generar texto o combinar ambos para varias tareas, Transformers ofrece flexibilidad para abordar diferentes desafíos relacionados con el idioma.

8 tipos de tareas para modelos preentrenados

Al entrenar un modelo, debemos asignarle una tarea u objetivo del que aprender. Hay varias tareas en el procesamiento del lenguaje natural (PNL) que se pueden usar para modelos de preentrenamiento. Analicemos algunas de estas tareas en términos simples:

Modelado del lenguaje (LM): el modelo predice el siguiente token en una oración. Aprende a comprender el contexto y generar oraciones coherentes.
Modelado de lenguaje causal: el modelo predice el siguiente token en una secuencia de texto, siguiendo un orden de izquierda a derecha. Es como un modelo de narración que genera oraciones palabra por palabra.
Modelado de lenguaje de prefijos: el modelo separa una sección de 'prefijo' de la secuencia principal. Puede atender a cualquier token dentro del prefijo y luego genera el resto de la secuencia de forma autorregresiva.
Modelado de lenguaje enmascarado (MLM): algunos tokens en las oraciones de entrada están enmascarados y el modelo predice los tokens que faltan en función del contexto circundante. Aprende a llenar los espacios en blanco.
Modelado de lenguaje permutado (PLM): el modelo predice el siguiente token en función de una permutación aleatoria de la secuencia de entrada. Aprende a manejar diferentes órdenes de fichas.
Codificador automático de eliminación de ruido (DAE): el modelo toma una entrada parcialmente corrupta y tiene como objetivo recuperar la entrada original sin distorsiones. Aprende a manejar el ruido o las partes faltantes del texto.
Detección de token reemplazado (RTD): el modelo detecta si un token proviene del texto original o de una versión generada. Aprende a identificar tokens reemplazados o manipulados.
Predicción de la siguiente oración (NSP): el modelo aprende a distinguir si dos oraciones de entrada son segmentos continuos de los datos de entrenamiento. Entiende la relación entre oraciones.

Estas tareas ayudan al modelo a aprender la estructura y el significado del lenguaje. Mediante la capacitación previa en estas tareas, los modelos adquieren una buena comprensión del lenguaje antes de ser ajustados para aplicaciones específicas.

Los 30+ mejores transformadores en IA

Nombre	Arquitectura previa al entrenamiento	Tarea	Aplicación	Desarrollado por
ALBERT	codificador	MLM/NSP	Igual que BERT	Google
Alpaca	Descifrador	LM	Tareas de generación y clasificación de textos	Stanford
AlphaFold	codificador	Predicción del plegamiento de proteínas	Proteína plegable	Deepmind
Asistente antrópico (ver también)	Descifrador	LM	Del diálogo general al asistente de código.	Antrópico
BART	Codificador/Decodificador	DAE	Tareas de generación y comprensión de textos	Facebook
BERTI	codificador	MLM/NSP	Comprensión del lenguaje y respuesta a preguntas	Google
licuadorabot 3	Descifrador	LM	Tareas de generación y comprensión de textos	Facebook
BLOOM	Descifrador	LM	Tareas de generación y comprensión de textos	Gran ciencia/cara abrazada
ChatGPT	Descifrador	LM	Agentes de diálogo	OpenAI
Chinchilla	Descifrador	LM	Tareas de generación y comprensión de textos	Deepmind
CLIP	codificador		Clasificación de imágenes/objetos	OpenAI
CTRL	Descifrador		Generación de texto controlable	Salesforce
DALL-E	Descifrador	Predicción de subtítulos	Texto a imagen	OpenAI
DALL-E-2	Codificador/Decodificador	Predicción de subtítulos	Texto a imagen	OpenAI
DEBERTO	Descifrador	MLM	Igual que BERT	Microsoft
Transformadores de decisión	Descifrador	Predicción de la próxima acción	RL general (tareas de aprendizaje por refuerzo)	Google/UC Berkeley/FERIA
DialoGPT	Descifrador	LM	Generación de texto en la configuración de diálogo	Microsoft
DestilarBERT	codificador	MLM/NSP	Comprensión del lenguaje y respuesta a preguntas	Abrazando
DQ-BART	Codificador/Decodificador	DAE	Generación y comprensión de textos.	Amazon
Muñequita	Descifrador	LM	Tareas de generación y clasificación de textos	Ladrillos de datos, Inc.
ERNIE	codificador	MLM	Tareas relacionadas intensivas en conocimientos	Varias instituciones chinas
Flamenco	Descifrador	Predicción de subtítulos	Texto a imagen	Deepmind
Galactica	Descifrador	LM	Control de calidad científico, razonamiento matemático, resumen, generación de documentos, predicción de propiedades moleculares y extracción de entidades.	Meta
PLANEO	codificador	Predicción de subtítulos	Texto a imagen	OpenAI
GPT-3.5	Descifrador	LM	Diálogo y lenguaje general	OpenAI
GPTInstruir	Descifrador	LM	Tareas de lenguaje o diálogo intensivas en conocimientos	OpenAI
HTML	Codificador/Decodificador	DAE	Modelo de lenguaje que permite indicaciones HTML estructuradas	Facebook
Imagen	T5	Predicción de subtítulos	Texto a imagen	Google
LAMDA	Descifrador	LM	Modelado general del lenguaje	Google
LLaMA	Descifrador	LM	Razonamiento de sentido común, Respuesta a preguntas, Generación de código y Comprensión de lectura.	Meta
Minerva	Descifrador	LM	Razonamiento matemático	Google
Palma	Descifrador	LM	Comprensión y generación del lenguaje.	Google
roberta	codificador	MLM	Comprensión del lenguaje y respuesta a preguntas	Universidad de Washington/Google
Gorrión	Descifrador	LM	Agentes de diálogo y aplicaciones generales de generación de lenguaje como Q&A	Deepmind
EstableDifusión	Codificador/Decodificador	Predicción de subtítulos	Texto a imagen	LMU Múnich + Stability.ai + Eleuther.ai
Vicuña	Descifrador	LM	Agentes de diálogo	UC Berkeley, CMU, Stanford, UC San Diego y MBZUAI

Preguntas Frecuentes

Los transformadores en IA son un tipo de arquitectura de aprendizaje profundo que ha cambiado el procesamiento del lenguaje natural y otras tareas. Utilizan mecanismos de autoatención para capturar las relaciones entre las palabras en una oración, lo que les permite comprender y generar texto similar al humano.

Los codificadores y decodificadores son componentes comúnmente utilizados en modelos de secuencia a secuencia. Los codificadores procesan los datos de entrada, como texto o imágenes, y los convierten en una representación comprimida, mientras que los decodificadores generan datos de salida basados en la representación codificada, lo que permite tareas como la traducción de idiomas o el subtitulado de imágenes.

Las capas de atención son componentes utilizados en redes neuronales, particularmente en los modelos Transformer. Permiten que el modelo se centre selectivamente en diferentes partes de la secuencia de entrada, asignando pesos a cada elemento en función de su relevancia, lo que permite capturar dependencias y relaciones entre elementos de manera efectiva.

Los modelos ajustados se refieren a modelos preentrenados que se han entrenado más en una tarea o conjunto de datos específicos para mejorar su rendimiento y adaptarlos a los requisitos específicos de esa tarea. Este proceso de ajuste implica ajustar los parámetros del modelo para optimizar sus predicciones y hacerlo más especializado para la tarea objetivo.

Los transformadores se consideran el futuro de la IA porque han demostrado un rendimiento excepcional en una amplia gama de tareas, incluido el procesamiento del lenguaje natural, la generación de imágenes y más. Su capacidad para capturar dependencias de largo alcance y procesar datos secuenciales de manera eficiente los hace altamente adaptables y efectivos para diversas aplicaciones, allanando el camino para avances en IA generativa y revolucionando muchos aspectos de la sociedad.

Los modelos de transformadores más famosos en IA incluyen BERT (Representaciones de codificador bidireccional de transformadores), GPT (Transformador generativo preentrenado) y T5 (Transformador de transferencia de texto a texto). Estos modelos han logrado resultados notables en diversas tareas de procesamiento del lenguaje natural y han ganado una popularidad significativa en la comunidad de investigación de IA.

Lea más sobre la IA:

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov