11 de Julio de 2023

GPT-4Los detalles filtrados arrojan luz sobre su enorme escala y su impresionante arquitectura

Publicado: 11 de julio de 2023 a las 7:19 am Actualizado: 11 de julio de 2023 a las 7:23 am

Editado y verificado: 11 de julio de 2023 a las 7:19 am

En Resumen

La información filtrada sobre GPT-4 ha despertado entusiasmo entre la comunidad de IA. Con más de 10 veces los parámetros de su predecesor, GPT-3, GPT-4 Se estima que tiene 1.8 billones de parámetros distribuidos en 120 capas.

OpenAI implementó un modelo mixto de expertos (MoE), utilizando 16 expertos con 111 mil millones de parámetros para perceptrones multicapa (MLP). El eficiente proceso de inferencia del modelo utiliza 280 mil millones de parámetros y 560 TFLOP por paso directo, lo que demuestra OpenAIEl compromiso de Maximizar la eficiencia y la rentabilidad. El conjunto de datos de entrenamiento del modelo incluye 13 billones de tokens, con ajustes de 8k a 32k.

OpenAI utilizó el paralelismo en GPT-4 para aprovechar todo el potencial de sus GPU A100, empleando paralelismo tensorial de 8 vías y paralelismo de canalización de 15 vías. El proceso de capacitación fue extenso y requirió muchos recursos, con costos que oscilaron entre 32 y 63 millones de dólares.

GPT-4El costo de inferencia es aproximadamente tres veces mayor que el de su predecesor, pero también incorpora atención de consultas múltiples, procesamiento por lotes continuo y decodificación especulativa. La arquitectura de inferencia opera en un grupo de 128 GPU, distribuidas en múltiples centros de datos.

La reciente filtración de detalles sobre GPT-4 ha causado conmoción en la comunidad de IA. La información filtrada, obtenida de una fuente no revelada, permite vislumbrar las impresionantes capacidades y la escala sin precedentes de este modelo innovador. Desglosaremos los hechos y desvelaremos los aspectos clave que hacen GPT-4 una auténtica maravilla tecnológica.

GPT-4Los detalles filtrados arrojan luz sobre su enorme escala y su impresionante arquitectura — Créditos: Metaverse Post (mpost.io)

GPT-4Los parámetros masivos cuentan

Una de las revelaciones más sorprendentes de la filtración es la magnitud absoluta de GPT-4. Tiene un tamaño asombroso, con más de 10 veces los parámetros de su predecesor. GPT-3. Se estima que tiene un total asombroso de aproximadamente 1.8 billones de parámetros distribuidos en unas impresionantes 120 capas. Este aumento sustancial de escala sin duda contribuye a GPT-4capacidades mejoradas y potencial para avances revolucionarios.

Modelo de Mezcla de Expertos (MoE)

Para garantizar costos razonables y al mismo tiempo mantener un rendimiento excepcional, OpenAI implementó un modelo mixto de expertos (MoE) en GPT-4. Al utilizar 16 expertos dentro del modelo, cada uno de los cuales consta de alrededor de 111 mil millones de parámetros para perceptrones multicapa (MLP), OpenAI asignación de recursos optimizada de manera efectiva. En particular, durante cada paso hacia adelante, solo se dirige a dos expertos, lo que minimiza los requisitos computacionales sin comprometer los resultados. Este enfoque innovador demuestra OpenAIEl compromiso de Maximizar la eficiencia y rentabilidad en sus modelos.

Fuga muy interesante y detallada del GPT-4 arquitectura, con un excelente análisis del razonamiento detrás de esto y sus implicaciones – por @dylan522p :https://t.co/eHE7VlGY5V

Aquí se puede encontrar un resumen sin muro de pago: https://t.co/rLxw5s9ZDt
- Jan P. Harries (@jphme) 11 de Julio de 2023

Algoritmo de enrutamiento MoE simplificado

Si bien el modelo a menudo explora algoritmos de enrutamiento avanzados para seleccionar expertos que manejen cada token, OpenAIEl enfoque de la actual GPT-4 Según se informa, el modelo es más sencillo. Se supone que el algoritmo de enrutamiento empleado por la IA es relativamente simple, pero igualmente efectivo. Aproximadamente 55 mil millones de parámetros de atención compartidos facilitan la distribución eficiente de tokens a los expertos apropiados dentro del modelo.

Inferencia eficiente

GPT-4El proceso de inferencia de muestra su eficiencia y destreza computacional. Cada paso directo, dedicado a generar un único token, utiliza aproximadamente 280 mil millones de parámetros y 560 TFLOP (tera operaciones de punto flotante por segundo). Esto contrasta marcadamente con la inmensa escala de GPT-4, con sus 1.8 billones de parámetros y 3,700 TFLOP por pase hacia adelante en un modelo puramente denso. Destaca el uso eficiente de los recursos OpenAIla dedicación de lograr un rendimiento óptimo sin requisitos computacionales excesivos.

Amplio conjunto de datos de entrenamiento

GPT-4 ha sido entrenado en un conjunto de datos colosal que comprende aproximadamente 13 billones de tokens. Es importante tener en cuenta que estos tokens incluyen tanto tokens únicos como tokens que representan números de época. El proceso de entrenamiento Incluye dos épocas para datos basados en texto y cuatro épocas para datos basados en código. OpenAI aprovechó millones de filas de datos de ajuste fino de instrucciones obtenidos de ScaleAI e internamente para refinar el rendimiento del modelo.

La fase previa al entrenamiento de GPT-4 empleó una longitud de contexto de 8k. Posteriormente, el modelo pasó por ajustes finos, dando como resultado la versión de 32k. Esta progresión se basa en la fase previa al entrenamiento, mejorando las capacidades del modelo y adaptándolo a tareas específicas.

Escalado con GPU a través del paralelismo

OpenAI aprovechó el poder del paralelismo en GPT-4 para aprovechar todo el potencial de sus GPU A100. Emplearon paralelismo tensorial de 8 vías, que maximiza el procesamiento paralelo, ya que es el límite para NVLink. Además, se utilizó el paralelismo de tuberías de 15 vías para mejorar aún más el rendimiento. Si bien es probable que se emplearan técnicas específicas como ZeRo Stage 1, la metodología exacta sigue sin revelarse.

Costo de capacitación y desafíos de utilización

Formación GPT-4 fue una tarea extensa y que requirió muchos recursos. OpenAI asignó aproximadamente 25,000 100 GPU A90 durante un período de 100 a 32 días, operando a una tasa de utilización de aproximadamente 36 % a 1 % de MFU (el más utilizado). El proceso de formación sufrió numerosos fallos, lo que requirió reinicios frecuentes desde los puntos de control. Si se estima en 100 dólar por hora AXNUMX, el costes de formación solo para esta carrera ascendería a aproximadamente $ 63 millones.

Compensaciones en una mezcla de expertos

La implementación de un modelo mixto de expertos presenta varias compensaciones. En el caso de GPT-4, OpenAI optó por 16 expertos en lugar de un número mayor. Esta decisión refleja un equilibrio entre lograr resultados de pérdidas superiores y garantizar la generalización en diversas tareas. Más expertos pueden presentar desafíos en términos de generalización y convergencia de tareas. OpenAIla elección de hacer ejercicio precaución en experto selección se alinea con su compromiso con un rendimiento confiable y sólido.

Costo de inferencia

En comparación con su predecesor, el modelo Davinci de 175 mil millones de parámetros, GPT-4El costo de inferencia es aproximadamente tres veces mayor. Esta discrepancia puede atribuirse a varios factores, incluidos los grupos más grandes necesarios para apoyar GPT-4 y la menor utilización lograda durante la inferencia. Las estimaciones indican un costo aproximado de $ 0.0049 centavos por 1,000 tokens para 128 GPU A100 y $ 0.0021 centavos por 1,000 tokens para 128 GPU H100 al inferir. GPT-4 con un 8k. Estas cifras suponen una utilización decente y tamaños de lote elevados, consideraciones cruciales para la optimización de costes.

Atención de Consultas Múltiples

OpenAI aprovecha la atención de consultas múltiples (MQA), una técnica ampliamente empleada en el campo, en GPT-4 también. Al implementar MQA, el modelo requiere solo un cabezal, lo que reduce significativamente la capacidad de memoria necesaria para la caché de valores clave (caché KV). A pesar de esta optimización, cabe señalar que el lote de 32k GPT-4 no se puede acomodar en GPU A40 de 100 GB y 8k está limitado por el tamaño de lote máximo.

Dosificación continua

Para lograr un equilibrio entre los costos de latencia y de inferencia, OpenAI incorpora tamaños de lote variables y procesamiento por lotes continuo en GPT-4. Este enfoque adaptativo permite un procesamiento flexible y eficiente, optimizando la utilización de recursos y reduciendo la sobrecarga computacional.

GPT-4 introduce un codificador de visión separado junto al codificador de texto, presentando atención cruzada entre los dos. Esta arquitectura, que recuerda a Flamingo, añade parámetros adicionales al ya impresionante recuento de 1.8 billones de parámetros de GPT-4. El modelo de visión se somete a un ajuste por separado utilizando aproximadamente 2 billones de tokens después de la fase de preentrenamiento de solo texto. Esta capacidad de visión potencia agentes autónomos leer páginas web, transcribir imágenes e interpretar contenido de vídeo, un activo invaluable en la era de los datos multimedia.

Decodificación especulativa

Un aspecto interesante de GPT-4La estrategia de inferencia es el posible uso de decodificación especulativa. Este enfoque implica emplear un sistema más pequeño y más rápido. modelo para generar predicciones para múltiples tokens por adelantado. Estos tokens predichos luego se introducen en un modelo de "oráculo" más grande como un solo lote. si el mas pequeño predicciones del modelo alinearse con el acuerdo del modelo más grande, se pueden decodificar varios tokens juntos. Sin embargo, si el modelo más grande rechaza las fichas predichas por el modelo preliminar, el resto del lote se descarta y la inferencia continúa únicamente con el modelo más grande. Este enfoque permite una decodificación eficiente mientras acepta potencialmente secuencias de menor probabilidad. Vale la pena señalar que esta especulación sigue sin verificarse en este momento.

Arquitectura de inferencia

GPT-4El proceso de inferencia opera en un grupo de 128 GPU, distribuidas en múltiples centros de datos en diferentes ubicaciones. Esta infraestructura emplea paralelismo tensorial de 8 vías y paralelismo de canalización de 16 vías para maximizar la eficiencia computacional. Cada nodo, compuesto por 8 GPU, alberga aproximadamente 130 mil millones de parámetros. Con un tamaño de modelo de 120 capas, GPT-4 puede caber en 15 nodos diferentes, posiblemente con menos capas en el primer nodo debido a la necesidad de calcular incrustaciones. Estas opciones arquitectónicas facilitan la inferencia de alto rendimiento, lo que demuestra OpenAIEl compromiso de ampliar los límites de la eficiencia computacional.

Tamaño y composición del conjunto de datos

GPT-4 fue entrenado con la impresionante cantidad de 13 billones de tokens, lo que le proporcionó un extenso corpus de texto para aprender. Sin embargo, no todos los tokens pueden contabilizarse en los conjuntos de datos conocidos utilizados durante el entrenamiento. Si bien conjuntos de datos como CommonCrawl y RefinedWeb contribuyen con una parte importante de la datos de entrenamiento, queda una parte de los tokens que no se contabilizan, a menudo denominados datos "secretos".

Rumores y especulaciones

Han surgido especulaciones sobre el origen de estos datos no revelados. Un rumor sugiere que incluye contenido de plataformas populares como Twitter, Reddit y YouTube, lo que destaca la influencia potencial del contenido generado por el usuario en la configuración. GPT-4La base de conocimientos. Además, existen conjeturas en torno a la inclusión de colecciones amplias como LibGen, un repositorio de millones de libros, y Sci-Hub, una plataforma que brinda acceso a numerosos artículos científicos. La noción de que GPT-4 fue entrenado en la totalidad de GitHub también ha circulado entre los entusiastas de la IA.

La opinión del reportero

Aunque hay muchos rumores, es importante abordarlos con cautela. la formación de GPT-4 Es posible que se haya beneficiado enormemente de un conjunto de datos especial compuesto por libros de texto universitarios. Este conjunto de datos, que cubre una amplia gama de cursos y temas, podría haberse recopilado minuciosamente a mano. Los libros de texto universitarios proporcionan una base de conocimientos estructurada y completa que se puede utilizar con éxito para entrenar un modelo de lenguaje y se pueden convertir fácilmente en archivos de texto. La inclusión de tal conjunto de datos podría dar la impresión de que GPT-4 tiene conocimientos en una variedad de campos.

La fascinación por GPT-4el conocimiento

Un aspecto intrigante de GPT-4La formación de es su capacidad para demostrar familiaridad con libros específicos e incluso recordar identificadores únicos de plataformas como el Proyecto Euler. Los investigadores han intentado extraer secciones memorizadas de libros de GPT-4 para obtener información sobre su entrenamiento, alimentando aún más la curiosidad sobre el funcionamiento interno del modelo. Estos descubrimientos ponen de relieve la asombrosa capacidad de GPT-4 para retener información y subrayar las impresionantes capacidades de los modelos lingüísticos a gran escala.

La versatilidad de GPT-4

El amplio espectro de temas y campos que GPT-4 aparentemente puede interactuar muestra su versatilidad. Ya sea respondiendo preguntas complejas en informática o profundizando en debates filosóficos, GPT-4La capacitación de sobre un conjunto de datos diverso lo prepara para interactuar con usuarios de diversos dominios. Esta versatilidad surge de su exposición a una amplia gama de recursos textuales, lo que la convierte en una herramienta valiosa para una amplia gama de usuarios.

Lea más sobre la IA:

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov