Les chercheurs ont répliqué OpenAILe travail de basé sur l'optimisation des politiques proximales (PPO) dans le RLHF
L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) fait partie intégrante des systèmes de formation tels que ChatGPT, et il s'appuie sur des méthodes spécialisées pour réussir. L'une de ces méthodes, la Proximal Policy Optimization (PPO), a été initialement imaginé dans les murs de OpenAI en 2017. À première vue, PPO s'est démarqué par sa promesse de simplicité de mise en œuvre et un nombre relativement faible d'hyperparamètres nécessaires pour affiner le modèle. Mais comme on dit, le diable se cache dans les détails.
Récemment, un article de blog intitulé «Les 37 détails de mise en œuvre de l’optimisation des politiques proximales» a mis en lumière les subtilités du PPO (préparé pour la conférence ICLR). Le nom à lui seul fait allusion aux défis rencontrés lors de la mise en œuvre de cette méthode soi-disant simple. Étonnamment, il a fallu trois ans aux auteurs pour rassembler toutes les informations nécessaires et reproduire les résultats.
Le code dans le OpenAI Le référentiel a subi des changements importants entre les versions, certains aspects sont restés inexpliqués et des particularités qui sont apparues sous forme de bugs ont produit d'une manière ou d'une autre des résultats. La complexité du PPO devient évidente lorsque vous approfondissez les détails, et pour ceux qui souhaitent une compréhension approfondie ou une amélioration personnelle, un résumé vidéo hautement recommandé est disponible.
Mais l'histoire ne s'arrête pas là. Les mêmes auteurs ont décidé de revisiter openai/ Dépôt de préférences lm-humain à partir de 2019, qui a joué un rôle crucial dans l'ajustement des modèles de langage basés sur les préférences humaines, à l'aide de PPO. Ce référentiel a marqué les premiers développements sur ChatGPT. Le récent article de blog, "Les détails de mise en œuvre N du RLHF avec PPO", reproduit fidèlement OpenAImais utilise PyTorch et des bibliothèques modernes au lieu du TensorFlow obsolète. Cette transition s'est accompagnée de son propre ensemble de défis, tels que les différences dans la mise en œuvre de l'optimiseur Adam entre les frameworks, rendant impossible la réplication de la formation sans ajustements.
L’aspect le plus intrigant de ce voyage est peut-être la quête visant à mener des expériences sur des configurations GPU spécifiques pour obtenir des métriques et des courbes d’apprentissage originales. C'est un voyage rempli de défis, depuis les contraintes de mémoire sur différents types de GPU jusqu'à la migration de OpenAI ensembles de données entre les installations de stockage.
En conclusion, l’exploration de l’optimisation proximale des politiques (PPO) dans l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) révèle un monde fascinant de complexités.
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.