15 mai 2023

Programmes LLM : la nouvelle voie pour affiner les modèles neuronaux dans des situations complexes

Publié : 15 mai 2023 à 3h42 Mise à jour : 15 mai 2023 à 3h42

Edité et vérifié : 15 mai 2023 à 3h42

En bref

Les auteurs proposent une voie alternative appelée LLM Programs, qui peut être considérée comme le développement de l'apprentissage en contexte.

La clé pour résoudre un problème grâce au programme LLM est la capacité de décomposer la solution à un problème en une séquence d'étapes plus simples.

Il existe deux principaux domaines de personnalisation du LLM : l'affinement (ou la formation supplémentaire) du modèle de base pré-formé et l'apprentissage en contexte. Le réglage fin nécessite des ressources informatiques, une collecte de données et une infrastructure importantes pour ce faire, puis héberge des modèles affinés. Pendant ce temps, l'apprentissage en contexte consiste à compiler la bonne invite avec des exemples de résolution de problème, tels que Chain-of-Thought (CoT). Cependant, il existe certaines difficultés, telles que la taille limitée du texte pouvant être soumis au modèle et le fait que, dans une invite multipasse complexe, les étapes peuvent interférer les unes avec les autres et que le modèle peut être distrait par quelque chose. qui ne devrait pas être distrait pour le moment. Les auteurs proposent une voie alternative appelée Programmes de maîtrise en droit, qui peut être considéré comme le développement de l'apprentissage en contexte.

Programmes LLM : la nouvelle voie pour affiner les modèles neuronaux dans des situations complexes

Recommandée: Guide ultime d'ingénierie rapide 2023

LLM est intégré au programme (de manière conventionnelle langage de programmation, par exemple, en Python). Ce code externe est chargé de stocker l'état et de maintenir le modèle étape par étape. Il présente quelques avantages majeurs : les langages de programmation sont adaptés pour cela, la taille du contexte disponible augmente et les étapes n'interfèrent pas les unes avec les autres. La clé pour résoudre un problème grâce au programme LLM est la capacité de décomposer la solution à un problème en une séquence d'étapes plus simples. Cette approche diffère des travaux précédents, où le modèle utilisait des outils externes tels que des calculatrices ou interpréteurs de code pour maintenir l'état. Cette approche est bonne car il est possible de décrire une tâche complexe et étendue de cette manière, ce qui facilite le test, le débogage et l'évaluation de la qualité.

De plus, il n'y a aucune interférence entre les étapes, ce qui facilite le travail avec LLM. Les systèmes de questions-réponses ne sont pas nouveaux non plus ; ils existaient bien avant les LLM. Comment la tâche de répondre aux questions est-elle résolue maintenant ?

Les sites sont mis à jour fréquemment, donc un modèle gelé n'est pas une option ; il deviendra rapidement obsolète et ne pourra pas répondre aux questions sur les nouveaux produits. Le recyclage constant du modèle pour chaque mise à jour n'est pas une option réaliste : cela coûte cher et prend du temps. Au lieu de cela, les pages d'un site Web sont généralement indexées, placées dans une sorte de base de données et souvent vectorielles. À la demande d'un utilisateur, les documents pertinents sont extraits et envoyés en tant que contexte à LLM.

Dans un tel paradigme, le problème est naturellement résolu par le programme LLM. En prime, il devient possible pour implémenter une logique multipasse plus complexe qui ne rentrerait pas entièrement dans le contexte.

Testé sur le Ensemble de données StrategyQA contenant des problèmes de classification binaire, dont la solution implique un raisonnement à plusieurs voies. Comme "La lumière du soleil pénètre-t-elle dans l'endroit le plus profond de la mer Noire?". Pour répondre, vous devez trouver la profondeur maximale (2 km) et la profondeur à laquelle la lumière pénètre dans l'eau (1 km), puis tirer une conclusion. Examinons un autre exemple de question : "Aristote a-t-il utilisé un ordinateur portable ?" Cette question n'est pas aussi simple et ne suit pas explicitement la séquence d'étapes de raisonnement comme « Aristote était-il vivant lorsque l'ordinateur portable a été inventé ? » fait. L'ensemble de données se concentre sur les questions où une telle séquence est implicite. Il n'y a que 2,780 918 questions dans l'ensemble de données, dont seulement XNUMX ont des paragraphes avec des preuves qui renforcent toutes les étapes du raisonnement. Dans les travaux actuels, on se limite à ce sous-ensemble ; sinon, nous devrions compter sur LLM pour apprendre certains faits lors de la préformation.

L'OPT-175B LLM, par défaut, n'est pas très doué pour suivre les instructions ; il n'a pas eu à affiner les instructions ni sur les données conversationnelles. Pour résoudre le problème de question-réponse étayé par des preuves, est divisé en une étape de filtrage des données et une étape de recherche arborescente.

A l'étape du filtrage, ayant une question, les développeurs parcourent tous les paragraphes et sélectionnent les plus pertinents. Par exemple, avec une invite de quelques coups, demandez au LLM de répondre (oui/non) si un paragraphe donné est pertinent par rapport à la question posée. Testé sur un sous-ensemble de 300 de StrategyQA, où chaque question était associée à un paragraphe, pertinent ou non, 50/50. OPT-175B et text-davinci-002 n'ont pas de qualité bien supérieure qu'une ligne de base aléatoire : jusqu'à 56 %. Le plus avancé 11B Tk-Instruire n'est pas beaucoup mieux à 61.6 %.

En raison de la mauvaise qualité de cette approche, une alternative a été élaborée qui considère la moyenne de log-vraisemblance négative (NLL) de la question en combinaison avec le paragraphe de texte précédent, puis classe les résultats. Évalué sur un ensemble de données où pour chaque question, il y avait 100 paragraphes, et un seul était pertinent (donc la supposition aléatoire donne 1%). Nous avons obtenu le top 1 de la précision à 79 % et le top 5 à 93 %. Pour ce calcul, vous avez généralement besoin d'accéder au modèle lui-même, ce qui n'est pas toujours fait dans l'API.

Vient ensuite l'étape de construction des chaînes de production. Cela se fait par une recherche dans un arbre où la question est la racine, et à chaque niveau, il y a de nombreux paragraphes avec des preuves possibles utilisées comme contexte pour générer l'étape suivante. Chaque chemin à travers l'arbre est une chaîne de sortie potentielle. Il n'est pas réaliste de tirer une conclusion sur toutes les chaînes possibles, donc toutes les chaînes disponibles sont classées et la chaîne la mieux classée est étendue. Il s'agit d'une telle variation de recherche de faisceau. Le processus s'arrête lorsqu'une réponse est apportée ou que le nombre maximal d'étapes autorisé est dépassé.

Les détails les plus importants sont les deux stratégies de classement testées pour l'étape de recherche arborescente. La première stratégie est basée sur le NLL moyen de toute la chaîne, tandis que la seconde stratégie examine la différence moyenne de NLL avec et sans paragraphe (P), avec et sans question (Q). Sur les 918 questions disponibles de StrategyQA, cette approche améliore significativement la qualité des réponses par rapport à la ligne de base avec CoT (60 %) ; les deux options de recherche donnent environ 66 % (la stratégie avec un delta légèrement supérieur). Si des faits d'or sont soumis, la qualité devient d'environ 81%, ce qui est la limite supérieure pour l'OPT. Darklang semble y aller quelque part mais d'une manière légèrement différente.

L'article est basé sur le télégramme poster.

En savoir plus sur l'IA :

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov