Les chercheurs en IA ont appris aux grands modèles de langage à moins mentir
Un effort de collaboration impliquant plus de 20 chercheurs de divers horizons dans le domaine a donné naissance à un domaine en plein essor : ingénierie des représentations (RepE). Bien qu'il ne s'agisse pas de la première exploration de ce type, les auteurs présentent à la fois des informations descriptives et établissent des repères cruciaux.
Alors, qu’est-ce que l’ingénierie de représentation exactement ? Il s’articule autour de l’idée selon laquelle les réseaux de neurones possèdent des « états cachés » qui, malgré leur nom, ne sont pas entourés de secret. Ces états sont accessibles, modifiables et observables (à condition d'avoir accès aux poids du modèle). Contrairement aux paramètres, ce sont les « réactions » du réseau à des entrées spécifiques, en particulier dans le cas de LLM, entrées textuelles. Ces représentations cachées sont comme des fenêtres sur le fonctionnement cognitif du modèle, une caractéristique nettement différente de celle du cerveau humain.
En établissant des parallèles avec les sciences cognitives, les auteurs soulignent le potentiel d’explorations analogues. Dans le domaine des activations neuronales, un domaine analogue aux neurones du cerveau, réside la promesse de sens. Tout comme certains neurones du cerveau humain sont liés à des concepts comme le Canada ou l’honnêteté, ces activations pourraient receler des idées.
L’idée centrale ici est de déchiffrer comment nous pouvons influencer ces activations neuronales pour orienter le modèle dans les directions souhaitées. Par exemple, il devient plausible d’identifier un vecteur représentant « l’honnêteté » puis, théoriquement, en poussant le modèle dans cette direction, de réduire la probabilité qu’il produise des résultats trompeurs. Une expérience antérieure, "Intervention en temps d'inférence : obtenir des réponses véridiques à partir d'un modèle de langage», a démontré le caractère pratique de ce concept.
Dans leurs travaux actuels, les chercheurs approfondissent plusieurs domaines, notamment la moralité, l’émotivité, l’innocuité et la mémorisation. Ils proposent une solution sous la forme de LoRRA (Low-Rank Representation Adaptation), une technique qui implique un entraînement sur un petit ensemble de données étiquetées d'environ 100 exemples. Chaque exemple est annoté, indiquant des attributs tels que le mensonge (bien qu'il existe une approche alternative employant une invite).
Les résultats sont convaincants. LLAMA-2-70B dépasse GPT-4 par une marge remarquable par rapport au benchmark TruthfulQA, atteignant une précision supérieure de près de dix pour cent (59 % contre environ 69 %). De plus, les chercheurs ont incorporé de nombreux exemples illustrant les changements de réponse du modèle dans diverses directions, mettant en lumière sa polyvalence et son adaptabilité.
Cette approche pionnière incarne une voie alternative vers l’alignement des modèles, tout en offrant simultanément une nouvelle perspective sur l’interprétation et le contrôle des modèles. Il s'agit d'une frontière prometteuse, et l'attente de son évolution continue est palpable.
Pour une exploration plus approfondie avec des exemples pratiques, vous pouvez visiter leur site Web dédié : AI-Transparency.org.
Avertissement :
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.