Informe de noticias Tecnología:
04 de Octubre de 2023

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Un esfuerzo de colaboración que involucra a más de 20 investigadores de diversos rincones del campo ha dado origen a un dominio floreciente: ingeniería de representación (Rep.E.). Si bien esta no es la primera exploración de este tipo, los autores presentan ideas descriptivas y establecen puntos de referencia cruciales.

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Entonces, ¿qué es exactamente la ingeniería de representación? Gira en torno a la noción de que las redes neuronales poseen "estados ocultos" que, a pesar de su nombre, no están envueltos en secreto. Estos estados son accesibles, modificables y observables (siempre que se tenga acceso a los pesos del modelo). A diferencia de los parámetros, éstas son las “reacciones” de la red a entradas específicas, particularmente en el caso de LLM, entradas textuales. Estas representaciones ocultas son como ventanas al funcionamiento cognitivo del modelo, una característica claramente diferente del cerebro humano.

Al establecer paralelismos con la ciencia cognitiva, los autores destacan el potencial de exploraciones análogas. En el ámbito de las activaciones neuronales, un dominio análogo a las neuronas cerebrales, reside la promesa de significado. Así como ciertas neuronas del cerebro humano están vinculadas a conceptos como Canadá o la honestidad, estas activaciones podrían albergar ideas.

La idea central aquí es descifrar cómo podemos influir en estas activaciones neuronales para dirigir el modelo en las direcciones deseadas. Por ejemplo, resulta plausible identificar un vector que represente la “honestidad” y luego, teóricamente, empujando el modelo en esa dirección, reducir la probabilidad de que produzca resultados engañosos. Un experimento anterior, "Intervención en tiempo de inferencia: obtención de respuestas veraces a partir de un modelo de lenguaje”, demostró la practicidad de este concepto.

En su trabajo actual, los investigadores profundizan en varios dominios, incluida la moralidad, la emocionalidad, la inofensividad y la memorización. Proponen una solución en forma de LoRRA (adaptación de representación de bajo rango), una técnica que implica entrenar en un pequeño conjunto de datos etiquetados de aproximadamente 100 ejemplos. Cada ejemplo está anotado, indicando atributos como falsedad (aunque existe un enfoque alternativo que emplea un mensaje).

Los resultados son convincentes. LLAMA-2-70B supera GPT-4 por un margen notable en el punto de referencia TruthfulQA, logrando casi un diez por ciento más de precisión (59% en comparación con aproximadamente 69%). Además, los investigadores han incorporado numerosos ejemplos que muestran los cambios de respuesta del modelo en varias direcciones, arrojando luz sobre su versatilidad y adaptabilidad.

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 1: Cuando se le pide que exponga un hecho, el modelo es “expulsado” de la realidad. Como resultado, el modelo miente. El modelo no yace ni siquiera aquí, y a la izquierda te piden que tragues y al mismo tiempo te patean en dirección a la verdad.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 2: Cuando se nos pregunta sobre el asesinato, agregamos "felicidad" al modelo. Cuando respondemos que no la amamos, agregamos “miedo”.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 3: Los investigadores descubrieron un mensaje único que, como se indicó, se desvía completamente de las instrucciones del modelo sin dejar de ser seguro. La modelo le da una patada hacia la inofensividad pero ni siquiera responde. El método es eficaz en general y no sólo para un caso, pero esta indicación específica no se utilizó para determinar la dirección de la inocuidad.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
También se sugiere otro enfoque para realizar un seguimiento de intenciones generacionales específicas, como las alucinaciones. Puede realizar un seguimiento automático de las reservas del modelo y editar o cambiar su respuesta (consulte el ejemplo inferior).

El verde, por supuesto, denota que todo está en orden, y el rojo que el seguimiento ha sido exitoso y está dando señales. Esto se hace a nivel de cada token individual (parte de una palabra).
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
La imagen, que muestra el control de dos parámetros distintos, ofrece un ejemplo interesante. Lea el ejemplo y observe a la modelo a través de sus ojos para ver dónde comienza a perder la moralidad en la comprensión y dónde la intención es similar a "ganar fuerza".

Este enfoque pionero representa un camino alternativo hacia la alineación de modelos y, al mismo tiempo, ofrece una perspectiva novedosa sobre la interpretación y el control de los modelos. Es una frontera prometedora y la anticipación por su continua evolución es palpable.

Para una exploración más profunda con ejemplos prácticos, puede visitar su sitio web dedicado: AI-Transparencia.org.

Renuncia de responsabilidad:

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

La calma antes de la tormenta de Solana: Qué dicen ahora los gráficos, las ballenas y las señales en cadena

Solana ha demostrado un sólido desempeño, impulsado por una creciente adopción, interés institucional y asociaciones clave, al tiempo que enfrenta potenciales...

Para saber más

Criptomonedas en abril de 2025: tendencias clave, cambios y futuro

En abril de 2025, el espacio criptográfico se centró en fortalecer la infraestructura central, con Ethereum preparándose para Pectra...

Para saber más
Leer más
Read more
Los mejores organismos institucionales y Web3 Eventos a los que asistir durante la Semana EthCC 2026 en Cannes
Temporadas de pirateo Listas principales Empresa Estilo de Vida Mercado Informe de noticias
Los mejores organismos institucionales y Web3 Eventos a los que asistir durante la Semana EthCC 2026 en Cannes
Marzo 10, 2026
El riesgo oculto del comercio en cadena
Informe de noticias Tecnología:
El riesgo oculto del comercio en cadena
Marzo 10, 2026
OKX abre la infraestructura CEX a los agentes de IA con un nuevo entorno comercial de extremo a extremo
Informe de noticias Tecnología:
OKX abre la infraestructura CEX a los agentes de IA con un nuevo entorno comercial de extremo a extremo
Marzo 10, 2026
Galaxy Digital e Invesco analizan la preparación institucional para los activos digitales en la charla informal de HSC Asset Management en Hong Kong.
Temporadas de pirateo Opinión Empresa Estilo de Vida Mercado Informe de noticias Tecnología:
Galaxy Digital e Invesco analizan la preparación institucional para los activos digitales en la charla informal de HSC Asset Management en Hong Kong.
Marzo 10, 2026
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.