Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Un esfuerzo de colaboración que involucra a más de 20 investigadores de diversos rincones del campo ha dado origen a un dominio floreciente: ingeniería de representación (Rep.E.). Si bien esta no es la primera exploración de este tipo, los autores presentan ideas descriptivas y establecen puntos de referencia cruciales.
Entonces, ¿qué es exactamente la ingeniería de representación? Gira en torno a la noción de que las redes neuronales poseen "estados ocultos" que, a pesar de su nombre, no están envueltos en secreto. Estos estados son accesibles, modificables y observables (siempre que se tenga acceso a los pesos del modelo). A diferencia de los parámetros, éstas son las “reacciones” de la red a entradas específicas, particularmente en el caso de LLM, entradas textuales. Estas representaciones ocultas son como ventanas al funcionamiento cognitivo del modelo, una característica claramente diferente del cerebro humano.
Al establecer paralelismos con la ciencia cognitiva, los autores destacan el potencial de exploraciones análogas. En el ámbito de las activaciones neuronales, un dominio análogo a las neuronas cerebrales, reside la promesa de significado. Así como ciertas neuronas del cerebro humano están vinculadas a conceptos como Canadá o la honestidad, estas activaciones podrían albergar ideas.
La idea central aquí es descifrar cómo podemos influir en estas activaciones neuronales para dirigir el modelo en las direcciones deseadas. Por ejemplo, resulta plausible identificar un vector que represente la “honestidad” y luego, teóricamente, empujando el modelo en esa dirección, reducir la probabilidad de que produzca resultados engañosos. Un experimento anterior, "Intervención en tiempo de inferencia: obtención de respuestas veraces a partir de un modelo de lenguaje”, demostró la practicidad de este concepto.
En su trabajo actual, los investigadores profundizan en varios dominios, incluida la moralidad, la emocionalidad, la inofensividad y la memorización. Proponen una solución en forma de LoRRA (adaptación de representación de bajo rango), una técnica que implica entrenar en un pequeño conjunto de datos etiquetados de aproximadamente 100 ejemplos. Cada ejemplo está anotado, indicando atributos como falsedad (aunque existe un enfoque alternativo que emplea un mensaje).
Los resultados son convincentes. LLAMA-2-70B supera GPT-4 por un margen notable en el punto de referencia TruthfulQA, logrando casi un diez por ciento más de precisión (59% en comparación con aproximadamente 69%). Además, los investigadores han incorporado numerosos ejemplos que muestran los cambios de respuesta del modelo en varias direcciones, arrojando luz sobre su versatilidad y adaptabilidad.
Este enfoque pionero representa un camino alternativo hacia la alineación de modelos y, al mismo tiempo, ofrece una perspectiva novedosa sobre la interpretación y el control de los modelos. Es una frontera prometedora y la anticipación por su continua evolución es palpable.
Para una exploración más profunda con ejemplos prácticos, puede visitar su sitio web dedicado: AI-Transparencia.org.
Exención de responsabilidad
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.