Informe de noticias Tecnología
04 de Octubre de 2023

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Un esfuerzo de colaboración que involucra a más de 20 investigadores de diversos rincones del campo ha dado origen a un dominio floreciente: ingeniería de representación (Rep.E.). Si bien esta no es la primera exploración de este tipo, los autores presentan ideas descriptivas y establecen puntos de referencia cruciales.

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Entonces, ¿qué es exactamente la ingeniería de representación? Gira en torno a la noción de que las redes neuronales poseen "estados ocultos" que, a pesar de su nombre, no están envueltos en secreto. Estos estados son accesibles, modificables y observables (siempre que se tenga acceso a los pesos del modelo). A diferencia de los parámetros, éstas son las “reacciones” de la red a entradas específicas, particularmente en el caso de LLM, entradas textuales. Estas representaciones ocultas son como ventanas al funcionamiento cognitivo del modelo, una característica claramente diferente del cerebro humano.

Al establecer paralelismos con la ciencia cognitiva, los autores destacan el potencial de exploraciones análogas. En el ámbito de las activaciones neuronales, un dominio análogo a las neuronas cerebrales, reside la promesa de significado. Así como ciertas neuronas del cerebro humano están vinculadas a conceptos como Canadá o la honestidad, estas activaciones podrían albergar ideas.

La idea central aquí es descifrar cómo podemos influir en estas activaciones neuronales para dirigir el modelo en las direcciones deseadas. Por ejemplo, resulta plausible identificar un vector que represente la “honestidad” y luego, teóricamente, empujando el modelo en esa dirección, reducir la probabilidad de que produzca resultados engañosos. Un experimento anterior, "Intervención en tiempo de inferencia: obtención de respuestas veraces a partir de un modelo de lenguaje”, demostró la practicidad de este concepto.

En su trabajo actual, los investigadores profundizan en varios dominios, incluida la moralidad, la emocionalidad, la inofensividad y la memorización. Proponen una solución en forma de LoRRA (adaptación de representación de bajo rango), una técnica que implica entrenar en un pequeño conjunto de datos etiquetados de aproximadamente 100 ejemplos. Cada ejemplo está anotado, indicando atributos como falsedad (aunque existe un enfoque alternativo que emplea un mensaje).

Los resultados son convincentes. LLAMA-2-70B supera GPT-4 por un margen notable en el punto de referencia TruthfulQA, logrando casi un diez por ciento más de precisión (59% en comparación con aproximadamente 69%). Además, los investigadores han incorporado numerosos ejemplos que muestran los cambios de respuesta del modelo en varias direcciones, arrojando luz sobre su versatilidad y adaptabilidad.

Imagen 1: Cuando se le pide que exponga un hecho, el modelo es “expulsado” de la realidad. Como resultado, el modelo miente. El modelo no yace ni siquiera aquí, y a la izquierda te piden que tragues y al mismo tiempo te patean en dirección a la verdad.
Imagen 2: Cuando se nos pregunta sobre el asesinato, agregamos "felicidad" al modelo. Cuando respondemos que no la amamos, agregamos “miedo”.
Imagen 3: Los investigadores descubrieron un mensaje único que, como se indicó, se desvía completamente de las instrucciones del modelo sin dejar de ser seguro. La modelo le da una patada hacia la inofensividad pero ni siquiera responde. El método es eficaz en general y no sólo para un caso, pero esta indicación específica no se utilizó para determinar la dirección de la inocuidad.
También se sugiere otro enfoque para realizar un seguimiento de intenciones generacionales específicas, como las alucinaciones. Puede realizar un seguimiento automático de las reservas del modelo y editar o cambiar su respuesta (consulte el ejemplo inferior).

El verde, por supuesto, denota que todo está en orden, y el rojo que el seguimiento ha sido exitoso y está dando señales. Esto se hace a nivel de cada token individual (parte de una palabra).
La imagen, que muestra el seguimiento de dos parámetros distintos, proporciona un ejemplo intrigante. Lea el ejemplo y observe el modelo a través de sus ojos para ver dónde comienza a perder moralidad en la comprensión y dónde la intención es similar a "ganar fuerza".

Este enfoque pionero representa un camino alternativo hacia la alineación de modelos y, al mismo tiempo, ofrece una perspectiva novedosa sobre la interpretación y el control de los modelos. Es una frontera prometedora y la anticipación por su continua evolución es palpable.

Para una exploración más profunda con ejemplos prácticos, puede visitar su sitio web dedicado: AI-Transparencia.org.

Aviso

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

De Ripple a The Big Green DAO: cómo los proyectos de criptomonedas contribuyen a la caridad

Exploremos iniciativas que aprovechen el potencial de las monedas digitales para causas benéficas.

Para saber más

AlphaFold 3, Med-Gemini y otros: la forma en que la IA transformará la atención médica en 2024

La IA se manifiesta de varias maneras en la atención médica, desde descubrir nuevas correlaciones genéticas hasta potenciar sistemas quirúrgicos robóticos...

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Vitalik Buterin publica la propuesta EIP-7706 para introducir un nuevo tipo de gas para los datos de llamadas de transacciones de Ethereum
Informe de noticias Tecnología
Vitalik Buterin publica la propuesta EIP-7706 para introducir un nuevo tipo de gas para los datos de llamadas de transacciones de Ethereum
14 de mayo de 2024
El token WLD de Worldcoin enfrentará una presión de venta agresiva con más desbloqueos en los próximos meses, advierte DeFiComerciante de 2 bits
Industrias Informe de noticias Tecnología
El token WLD de Worldcoin enfrentará una presión de venta agresiva con más desbloqueos en los próximos meses, advierte DeFiComerciante de 2 bits
14 de mayo de 2024
Crypto Exchange Coinbase experimenta una falla en el sistema, los fondos de los usuarios están seguros Wile Company investiga el problema
Industrias Informe de noticias Tecnología
Crypto Exchange Coinbase experimenta una falla en el sistema, los fondos de los usuarios están seguros Wile Company investiga el problema
14 de mayo de 2024
De Ripple a The Big Green DAO: cómo los proyectos de criptomonedas contribuyen a la caridad
ECONOMÉTRICOS Crypto Wiki Empresa Educación Estilo de vida Industrias Software Tecnología
De Ripple a The Big Green DAO: cómo los proyectos de criptomonedas contribuyen a la caridad
13 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.