Informe de noticias Tecnología
04 de octubre 2023

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Un esfuerzo de colaboración que involucra a más de 20 investigadores de diversos rincones del campo ha dado origen a un dominio floreciente: ingeniería de representación (Rep.E.). Si bien esta no es la primera exploración de este tipo, los autores presentan ideas descriptivas y establecen puntos de referencia cruciales.

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos

Entonces, ¿qué es exactamente la ingeniería de representación? Gira en torno a la noción de que las redes neuronales poseen "estados ocultos" que, a pesar de su nombre, no están envueltos en secreto. Estos estados son accesibles, modificables y observables (siempre que se tenga acceso a los pesos del modelo). A diferencia de los parámetros, éstas son las “reacciones” de la red a entradas específicas, particularmente en el caso de LLM, entradas textuales. Estas representaciones ocultas son como ventanas al funcionamiento cognitivo del modelo, una característica claramente diferente del cerebro humano.

Al establecer paralelismos con la ciencia cognitiva, los autores destacan el potencial de exploraciones análogas. En el ámbito de las activaciones neuronales, un dominio análogo a las neuronas cerebrales, reside la promesa de significado. Así como ciertas neuronas del cerebro humano están vinculadas a conceptos como Canadá o la honestidad, estas activaciones podrían albergar ideas.

La idea central aquí es descifrar cómo podemos influir en estas activaciones neuronales para dirigir el modelo en las direcciones deseadas. Por ejemplo, resulta plausible identificar un vector que represente la “honestidad” y luego, teóricamente, empujando el modelo en esa dirección, reducir la probabilidad de que produzca resultados engañosos. Un experimento anterior, "Intervención en tiempo de inferencia: obtención de respuestas veraces a partir de un modelo de lenguaje”, demostró la practicidad de este concepto.

En su trabajo actual, los investigadores profundizan en varios dominios, incluida la moralidad, la emocionalidad, la inofensividad y la memorización. Proponen una solución en forma de LoRRA (adaptación de representación de bajo rango), una técnica que implica entrenar en un pequeño conjunto de datos etiquetados de aproximadamente 100 ejemplos. Cada ejemplo está anotado, indicando atributos como falsedad (aunque existe un enfoque alternativo que emplea un mensaje).

Los resultados son convincentes. LLAMA-2-70B supera GPT-4 por un margen notable en el punto de referencia TruthfulQA, logrando casi un diez por ciento más de precisión (59% en comparación con aproximadamente 69%). Además, los investigadores han incorporado numerosos ejemplos que muestran los cambios de respuesta del modelo en varias direcciones, arrojando luz sobre su versatilidad y adaptabilidad.

Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 1: Cuando se le pide que exponga un hecho, el modelo es “expulsado” de la realidad. Como resultado, el modelo miente. El modelo no yace ni siquiera aquí, y a la izquierda te piden que tragues y al mismo tiempo te patean en dirección a la verdad.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 2: Cuando se nos pregunta sobre el asesinato, agregamos "felicidad" al modelo. Cuando respondemos que no la amamos, agregamos “miedo”.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
Imagen 3: Los investigadores descubrieron un mensaje único que, como se indicó, se desvía completamente de las instrucciones del modelo sin dejar de ser seguro. La modelo le da una patada hacia la inofensividad pero ni siquiera responde. El método es eficaz en general y no sólo para un caso, pero esta indicación específica no se utilizó para determinar la dirección de la inocuidad.
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
También se sugiere otro enfoque para realizar un seguimiento de intenciones generacionales específicas, como las alucinaciones. Puede realizar un seguimiento automático de las reservas del modelo y editar o cambiar su respuesta (consulte el ejemplo inferior).

El verde, por supuesto, denota que todo está en orden, y el rojo que el seguimiento ha sido exitoso y está dando señales. Esto se hace a nivel de cada token individual (parte de una palabra).
Los investigadores de IA han enseñado a los modelos de lenguaje grandes a mentir menos
La imagen, que muestra el control de dos parámetros distintos, ofrece un ejemplo interesante. Lea el ejemplo y observe a la modelo a través de sus ojos para ver dónde comienza a perder la moralidad en la comprensión y dónde la intención es similar a "ganar fuerza".

Este enfoque pionero representa un camino alternativo hacia la alineación de modelos y, al mismo tiempo, ofrece una perspectiva novedosa sobre la interpretación y el control de los modelos. Es una frontera prometedora y la anticipación por su continua evolución es palpable.

Para una exploración más profunda con ejemplos prácticos, puede visitar su sitio web dedicado: AI-Transparencia.org.

Exención de responsabilidad

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

De Ripple a The Big Green DAO: cómo los proyectos de criptomonedas contribuyen a la caridad

Exploremos iniciativas que aprovechen el potencial de las monedas digitales para causas benéficas.

Para saber más

AlphaFold 3, Med-Gemini y otros: la forma en que la IA transformará la atención médica en 2024

La IA se manifiesta de varias maneras en la atención médica, desde descubrir nuevas correlaciones genéticas hasta potenciar sistemas quirúrgicos robóticos...

Para saber más
Más Información
Más información
Descubriendo el futuro de GameFi:Seis innovadores que dominarán Web3 El panorama de los videojuegos en 2025
Estilo de Vida Informe de noticias Tecnología
Descubriendo el futuro de GameFi:Seis innovadores que dominarán Web3 El panorama de los videojuegos en 2025
Enero 13, 2025
Bitfinex: aumenta la cautela en el mercado de criptomonedas, pero Bitcoin sigue siendo resistente
Mercados Informe de noticias Tecnología
Bitfinex: aumenta la cautela en el mercado de criptomonedas, pero Bitcoin sigue siendo resistente
Enero 13, 2025
A pesar de los recientes retrocesos y la volatilidad del mercado, Grayscale sigue confiando en las perspectivas alcistas a largo plazo para las criptomonedas
Opinión Empresa Mercados Tecnología
A pesar de los recientes retrocesos y la volatilidad del mercado, Grayscale sigue confiando en las perspectivas alcistas a largo plazo para las criptomonedas
Enero 13, 2025
UniSat suspende los servicios del mercado CAT20 mientras se actualiza el protocolo CAT
Informe de noticias Tecnología
UniSat suspende los servicios del mercado CAT20 mientras se actualiza el protocolo CAT
Enero 13, 2025
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.