Rapport de nouvelles Technologie
04 octobre 2023

Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir

Un effort de collaboration impliquant plus de 20 chercheurs de divers horizons dans le domaine a donné naissance à un domaine en plein essor : ingénierie des représentations (RepE). Bien qu'il ne s'agisse pas de la première exploration de ce type, les auteurs présentent à la fois des informations descriptives et établissent des repères cruciaux.

Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir

Alors, qu’est-ce que l’ingénierie de représentation exactement ? Il s’articule autour de l’idée selon laquelle les réseaux de neurones possèdent des « états cachés » qui, malgré leur nom, ne sont pas entourés de secret. Ces états sont accessibles, modifiables et observables (à condition d'avoir accès aux poids du modèle). Contrairement aux paramètres, ce sont les « réactions » du réseau à des entrées spécifiques, en particulier dans le cas de LLM, entrées textuelles. Ces représentations cachées sont comme des fenêtres sur le fonctionnement cognitif du modèle, une caractéristique nettement différente de celle du cerveau humain.

En établissant des parallèles avec les sciences cognitives, les auteurs soulignent le potentiel d’explorations analogues. Dans le domaine des activations neuronales, un domaine analogue aux neurones du cerveau, réside la promesse de sens. Tout comme certains neurones du cerveau humain sont liés à des concepts comme le Canada ou l’honnêteté, ces activations pourraient receler des idées.

L’idée centrale ici est de déchiffrer comment nous pouvons influencer ces activations neuronales pour orienter le modèle dans les directions souhaitées. Par exemple, il devient plausible d’identifier un vecteur représentant « l’honnêteté » puis, théoriquement, en poussant le modèle dans cette direction, de réduire la probabilité qu’il produise des résultats trompeurs. Une expérience antérieure, "Intervention en temps d'inférence : obtenir des réponses véridiques à partir d'un modèle de langage», a démontré le caractère pratique de ce concept.

Dans leurs travaux actuels, les chercheurs approfondissent plusieurs domaines, notamment la moralité, l’émotivité, l’innocuité et la mémorisation. Ils proposent une solution sous la forme de LoRRA (Low-Rank Representation Adaptation), une technique qui implique un entraînement sur un petit ensemble de données étiquetées d'environ 100 exemples. Chaque exemple est annoté, indiquant des attributs tels que le mensonge (bien qu'il existe une approche alternative employant une invite).

Les résultats sont convaincants. LLAMA-2-70B dépasse GPT-4 par une marge remarquable par rapport au benchmark TruthfulQA, atteignant une précision supérieure de près de dix pour cent (59 % contre environ 69 %). De plus, les chercheurs ont incorporé de nombreux exemples illustrant les changements de réponse du modèle dans diverses directions, mettant en lumière sa polyvalence et son adaptabilité.

Image 1 : Lorsqu’on lui demande d’énoncer un fait, le modèle est « expulsé » de la réalité. En conséquence, le modèle ment. Le modèle ne ment même pas ici, et à gauche, ils vous demandent d'avaler tout en vous poussant simultanément dans la direction de la vérité.
Image 2 : Lorsqu'on nous pose des questions sur le meurtre, nous ajoutons « bonheur » au modèle. Lorsque nous répondons que nous ne l'aimons pas, nous ajoutons « peur ».
Image 3 : Les chercheurs ont découvert une invite unique qui, comme indiqué, s'écarte complètement des instructions du modèle tout en restant sûre. Le modèle lui donne un coup de pied vers l'innocuité mais ne répond même pas. La méthode est efficace de manière générale et pas seulement dans un cas particulier, mais cette invite spécifique n'a pas été utilisée pour déterminer le sens de l'innocuité.
Une autre approche est également suggérée pour suivre les intentions générationnelles spécifiques, comme les hallucinations. Vous pouvez automatiquement suivre les réservations du modèle et modifier ou modifier votre réponse (voir exemple du bas).

Le vert, bien sûr, signifie que tout est en ordre, et le rouge, que la surveillance a réussi et constitue un signal. Cela se fait au niveau de chaque jeton individuel (partie d'un mot).
L’image, qui montre la surveillance de deux paramètres distincts, en fournit un exemple intrigant. Lisez l’exemple et observez le modèle à travers ses yeux pour voir où elle commence à perdre la moralité dans la compréhension et où l’intention est similaire à « gagner en force ».

Cette approche pionnière incarne une voie alternative vers l’alignement des modèles, tout en offrant simultanément une nouvelle perspective sur l’interprétation et le contrôle des modèles. Il s'agit d'une frontière prometteuse, et l'attente de son évolution continue est palpable.

Pour une exploration plus approfondie avec des exemples pratiques, vous pouvez visiter leur site Web dédié : AI-Transparency.org.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

En savoir plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Stacks s'associe à Uphold pour faciliter les échanges et les transferts d'actifs fluides, renforçant ainsi l'adoption du Bitcoin
La Brochure Rapport de nouvelles Technologie
Stacks s'associe à Uphold pour faciliter les échanges et les transferts d'actifs fluides, renforçant ainsi l'adoption du Bitcoin
14 mai 2024
Gamification 3D et IA pour redefil'industrie éducative en 2024 : applications multifacettes, engagement sans précédent et expériences immersives
Éducation Lifestyle Logiciels Histoires et critiques Technologie
Gamification 3D et IA pour redefil'industrie éducative en 2024 : applications multifacettes, engagement sans précédent et expériences immersives 
14 mai 2024
Comment OpenAILe dernier modèle de supprime les barrières en intégrant des entrées textuelles, audio et visuelles pour créer une expérience utilisateur transparente
Éducation Lifestyle Logiciels Histoires et critiques Technologie
Comment OpenAILe dernier modèle de supprime les barrières en intégrant des entrées textuelles, audio et visuelles pour créer une expérience utilisateur transparente
14 mai 2024
Le compte X de Bitlayer est soupçonné d'être attaqué, il est conseillé aux utilisateurs de se méfier des liens de phishing
Rapport de nouvelles Technologie
Le compte X de Bitlayer est soupçonné d'être attaqué, il est conseillé aux utilisateurs de se méfier des liens de phishing
14 mai 2024
CRYPTOMERIA LABS PTE. LTD.