Rapport de nouvelles Technologie
04 octobre 2023

Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir

Un effort de collaboration impliquant plus de 20 chercheurs de divers horizons dans le domaine a donné naissance à un domaine en plein essor : ingénierie des représentations (RepE). Bien qu'il ne s'agisse pas de la première exploration de ce type, les auteurs présentent à la fois des informations descriptives et établissent des repères cruciaux.

Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir

Alors, qu’est-ce que l’ingénierie de représentation exactement ? Il s’articule autour de l’idée selon laquelle les réseaux de neurones possèdent des « états cachés » qui, malgré leur nom, ne sont pas entourés de secret. Ces états sont accessibles, modifiables et observables (à condition d'avoir accès aux poids du modèle). Contrairement aux paramètres, ce sont les « réactions » du réseau à des entrées spécifiques, en particulier dans le cas de LLM, entrées textuelles. Ces représentations cachées sont comme des fenêtres sur le fonctionnement cognitif du modèle, une caractéristique nettement différente de celle du cerveau humain.

En établissant des parallèles avec les sciences cognitives, les auteurs soulignent le potentiel d’explorations analogues. Dans le domaine des activations neuronales, un domaine analogue aux neurones du cerveau, réside la promesse de sens. Tout comme certains neurones du cerveau humain sont liés à des concepts comme le Canada ou l’honnêteté, ces activations pourraient receler des idées.

L’idée centrale ici est de déchiffrer comment nous pouvons influencer ces activations neuronales pour orienter le modèle dans les directions souhaitées. Par exemple, il devient plausible d’identifier un vecteur représentant « l’honnêteté » puis, théoriquement, en poussant le modèle dans cette direction, de réduire la probabilité qu’il produise des résultats trompeurs. Une expérience antérieure, "Intervention en temps d'inférence : obtenir des réponses véridiques à partir d'un modèle de langage», a démontré le caractère pratique de ce concept.

Dans leurs travaux actuels, les chercheurs approfondissent plusieurs domaines, notamment la moralité, l’émotivité, l’innocuité et la mémorisation. Ils proposent une solution sous la forme de LoRRA (Low-Rank Representation Adaptation), une technique qui implique un entraînement sur un petit ensemble de données étiquetées d'environ 100 exemples. Chaque exemple est annoté, indiquant des attributs tels que le mensonge (bien qu'il existe une approche alternative employant une invite).

Les résultats sont convaincants. LLAMA-2-70B dépasse GPT-4 par une marge remarquable par rapport au benchmark TruthfulQA, atteignant une précision supérieure de près de dix pour cent (59 % contre environ 69 %). De plus, les chercheurs ont incorporé de nombreux exemples illustrant les changements de réponse du modèle dans diverses directions, mettant en lumière sa polyvalence et son adaptabilité.

Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
Image 1 : Lorsqu’on lui demande d’énoncer un fait, le modèle est « expulsé » de la réalité. En conséquence, le modèle ment. Le modèle ne ment même pas ici, et à gauche, ils vous demandent d'avaler tout en vous poussant simultanément dans la direction de la vérité.
Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
Image 2 : Lorsqu'on nous pose des questions sur le meurtre, nous ajoutons « bonheur » au modèle. Lorsque nous répondons que nous ne l'aimons pas, nous ajoutons « peur ».
Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
Image 3 : Les chercheurs ont découvert une invite unique qui, comme indiqué, s'écarte complètement des instructions du modèle tout en restant sûre. Le modèle lui donne un coup de pied vers l'innocuité mais ne répond même pas. La méthode est efficace de manière générale et pas seulement dans un cas particulier, mais cette invite spécifique n'a pas été utilisée pour déterminer le sens de l'innocuité.
Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
Une autre approche est également suggérée pour suivre les intentions générationnelles spécifiques, comme les hallucinations. Vous pouvez automatiquement suivre les réservations du modèle et modifier ou modifier votre réponse (voir exemple du bas).

Le vert, bien sûr, signifie que tout est en ordre, et le rouge, que la surveillance a réussi et constitue un signal. Cela se fait au niveau de chaque jeton individuel (partie d'un mot).
Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
L’image, qui montre le suivi de deux paramètres distincts, fournit un exemple intéressant. Lisez l’exemple et observez le modèle à travers ses yeux pour voir où elle commence à perdre sa moralité dans la compréhension et où l’intention est similaire à « gagner en force ».

Cette approche pionnière incarne une voie alternative vers l’alignement des modèles, tout en offrant simultanément une nouvelle perspective sur l’interprétation et le contrôle des modèles. Il s'agit d'une frontière prometteuse, et l'attente de son évolution continue est palpable.

Pour une exploration plus approfondie avec des exemples pratiques, vous pouvez visiter leur site Web dédié : AI-Transparency.org.

Avertissement :

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

Savoir Plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

Savoir Plus
En savoir plus
Je découvre le livre blanc
Zerebro rejoint la plateforme ByVotes de Bybit avec une cagnotte de 600,000 XNUMX jetons
Rapport de nouvelles Technologie
Zerebro rejoint la plateforme ByVotes de Bybit avec une cagnotte de 600,000 XNUMX jetons
4 décembre 2024
Republic dévoile Sui Launchpad, permettant aux entreprises de créer des jetons utilitaires
Rapport de nouvelles Technologie
Republic dévoile Sui Launchpad, permettant aux entreprises de créer des jetons utilitaires
4 décembre 2024
Safe présente le réseau de traitement des transactions Safenet, dont le lancement sur le réseau principal est prévu pour 2025
Rapport de nouvelles Technologie
Safe présente le réseau de traitement des transactions Safenet, dont le lancement sur le réseau principal est prévu pour 2025
4 décembre 2024
De nouvelles crypto-monnaies sur le point d'émergerdefiL'innovation Blockchain en 2025
Opinion Business Marchés Technologie
De nouvelles crypto-monnaies sur le point d'émergerdefiL'innovation Blockchain en 2025
3 décembre 2024
CRYPTOMERIA LABS PTE. LTD.