Informe de noticias Tecnología
15 de mayo de 2023

Programas LLM: el nuevo camino para ajustar modelos neuronales en situaciones complejas

En Resumen

Los autores proponen un camino alternativo llamado Programas LLM, que puede considerarse como el desarrollo del aprendizaje en contexto.

La clave para resolver un problema a través del programa LLM es la capacidad de descomponer la solución de un problema en una secuencia de pasos más simples.

Hay dos áreas principales de personalización de LLM: ajuste fino (o capacitación adicional) del modelo base preentrenado y aprendizaje en contexto. El ajuste fino requiere importantes recursos informáticos, recopilación de datos e infraestructura para hacer esto y luego alojar modelos ajustados. Mientras tanto, el aprendizaje en contexto implica compilar el mensaje correcto con ejemplos de cómo resolver el problema, como Chain-of-Thought (CoT). Sin embargo, existen algunas dificultades, como el tamaño limitado del texto que se puede enviar al modelo y el hecho de que en un indicador complejo de varias pasadas, los pasos pueden interferir entre sí y el modelo puede distraerse con algo. que no debe distraerse en este momento. Los autores proponen un camino alternativo llamado Programas LLM, que puede considerarse como el desarrollo del aprendizaje en contexto.

Programas LLM: el nuevo camino para ajustar modelos neuronales en situaciones complejas
Recomendado: Guía definitiva de ingeniería rápida 2023

LLM está integrado en el programa (en una forma convencional lenguaje de programación, por ejemplo, en Python). Este código externo se encarga de almacenar el estado y mantener el modelo paso a paso. Tiene algunas ventajas importantes: los lenguajes de programación están adaptados para esto, el tamaño del contexto disponible crece y los pasos no interfieren entre sí. La clave para resolver un problema a través del programa LLM es la capacidad de descomponer la solución de un problema en una secuencia de pasos más simples. Este enfoque difiere de trabajos anteriores, donde el modelo utilizaba herramientas externas como calculadoras o intérpretes de código para mantener el estado. Este enfoque es bueno porque es posible describir una tarea compleja y extensa de esta manera, lo que facilita la prueba, la depuración y la evaluación de la calidad.

Además, no hay interferencia entre los pasos, lo que facilita el trabajo con LLM. Los sistemas de preguntas y respuestas tampoco son nuevos; han existido mucho antes que los LLM. ¿Cómo se resuelve ahora la tarea de responder preguntas?

Los sitios se actualizan con frecuencia, por lo que un modelo congelado no es una opinión; rápidamente quedará obsoleto y no podrá responder preguntas sobre nuevos productos. El reentrenamiento constante del modelo para cada actualización no es una opción realista: es costoso y requiere mucho tiempo. En cambio, las páginas de un sitio web generalmente se indexan, se colocan en algún tipo de base de datos y, a menudo, se vectorizan. A pedido del usuario, los documentos relevantes se extraen y se envían como contexto a LLM.

En tal paradigma, el problema se resuelve naturalmente a través del Programa LLM. Como beneficio adicional, se vuelve posible para implementar una lógica de múltiples pasos más compleja que no encajaría completamente en el contexto.

Probado en el Conjunto de datos de StrategyQA que contiene problemas de clasificación binaria, cuya solución implica un razonamiento de múltiples vías. Como "¿La luz del sol penetra en el lugar más profundo del Mar Negro?". Para responder, debe encontrar la profundidad máxima (2 km) y qué tan profundo penetra la luz en el agua (1 km), y luego sacar una conclusión. Echemos un vistazo a otra pregunta de ejemplo: "¿Usó Aristóteles una computadora portátil?" Esta pregunta no es tan sencilla y no sigue la secuencia de pasos de razonamiento explícitamente como "¿Estaba vivo Aristóteles cuando se inventó la computadora portátil?" hace. El conjunto de datos se centra en preguntas en las que dicha secuencia está implícita. Solo hay 2,780 preguntas en el conjunto de datos, de las cuales solo 918 tienen párrafos con evidencia que refuerzan todos los pasos del razonamiento. En el trabajo actual, se limita a este subconjunto; de lo contrario, tendríamos que depender de que LLM aprenda algunos hechos durante el entrenamiento previo.

El OPT-175B LLM, por defecto, no es muy bueno para seguir instrucciones; no tuvo que afinar instrucciones ni sobre datos conversacionales. Para resolver el problema de pregunta-respuesta sustentada en evidencia, se divide en una etapa de filtrado de datos y una etapa de búsqueda en árbol.

En la etapa de filtrado, al tener una pregunta, los desarrolladores revisan todos los párrafos y seleccionan los más relevantes. Por ejemplo, con un mensaje breve, pídale al LLM que responda (sí/no) si un párrafo determinado es relevante para la pregunta formulada. Probado en un subconjunto 300 de StrategyQA, donde cada pregunta se emparejó con un párrafo, relevante o no, 50/50. OPT-175B y text-davinci-002 no tienen un calidad mucho mayor que una línea base aleatoria: hasta 56%. Cuanto más avanzado 11B Tk-Instrucción no es mucho mejor en 61.6%.

Debido a la mala calidad de este enfoque, se elaboró ​​una alternativa que considera el log-verosimilitud negativo promedio (NLL) de la pregunta en combinación con el párrafo de texto anterior y luego clasifica los resultados. Evaluado en un conjunto de datos donde para cada pregunta había 100 párrafos, y solo uno era relevante (por lo que las conjeturas aleatorias dan 1%). Obtuvimos una precisión entre los 1 primeros con un 79 % y entre los 5 primeros con un 93 %. Para este cálculo, generalmente necesita acceso al modelo en sí, lo que no siempre se hace en la API.

Luego viene la etapa de construcción de cadenas de producción. Esto se hace a través de una búsqueda a través de un árbol donde la pregunta es la raíz, y en cada nivel, hay muchos párrafos con posibles evidencias que se utilizan como contexto para generar el siguiente paso. Cada camino a través del árbol es una cadena de salida potencial. No es realista sacar una conclusión sobre todas las cadenas posibles, por lo que se clasifican todas las cadenas disponibles y se expande la cadena con la clasificación más alta. Esta es una variación de la búsqueda de haz. El proceso se detiene cuando se realiza una respuesta o se ha superado el número máximo de pasos permitido.

Los detalles más importantes son las dos estrategias de clasificación probadas para el paso de búsqueda del árbol. La primera estrategia se basa en el NLL promedio de toda la cadena, mientras que la segunda estrategia analiza la diferencia promedio en NLL con y sin párrafo (P), con y sin pregunta (Q). En las 918 preguntas disponibles de StrategyQA, este enfoque mejora significativamente la calidad de la respuesta en relación con la línea de base con CoT (60 %); ambas opciones de búsqueda dan alrededor del 66% (la estrategia con un delta ligeramente superior). Si se envían hechos de oro, la calidad se vuelve alrededor del 81%, que es el límite superior para OPT. Darklang parece estar yendo a alguna parte, pero de una manera ligeramente diferente.

El artículo está basado en Telegram. post.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
Empresa Informe de noticias Tecnología
Injective une fuerzas con AltLayer para llevar la seguridad de recuperación a inEVM
3 de mayo de 2024
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
Industrias Informe de noticias Tecnología
Masa se asocia con Teller para presentar el fondo de préstamos MASA y permite pedir prestado al USDC en base
3 de mayo de 2024
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
Industrias Informe de noticias Tecnología
Velodrome lanza la versión Beta de Superchain en las próximas semanas y se expande a través de las cadenas de bloques OP Stack Layer 2
3 de mayo de 2024
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
Empresa Informe de noticias Tecnología
CARV anuncia asociación con Aethir para descentralizar su capa de datos y distribuir recompensas
3 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.