Rapport de nouvelles Technologie
27 octobre 2023

Les chercheurs ont répliqué OpenAILe travail de basé sur l'optimisation des politiques proximales (PPO) dans le RLHF

L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) fait partie intégrante des systèmes de formation tels que ChatGPT, et il s'appuie sur des méthodes spécialisées pour réussir. L'une de ces méthodes, la Proximal Policy Optimization (PPO), a été initialement imaginé dans les murs de OpenAI en 2017. À première vue, PPO s'est démarqué par sa promesse de simplicité de mise en œuvre et un nombre relativement faible d'hyperparamètres nécessaires pour affiner le modèle. Mais comme on dit, le diable se cache dans les détails.

Les chercheurs ont répliqué OpenAILe travail de basé sur l'optimisation des politiques proximales (PPO) dans le RLHF

Récemment, un article de blog intitulé «Les 37 détails de mise en œuvre de l’optimisation des politiques proximales» a mis en lumière les subtilités du PPO (préparé pour la conférence ICLR). Le nom à lui seul fait allusion aux défis rencontrés lors de la mise en œuvre de cette méthode soi-disant simple. Étonnamment, il a fallu trois ans aux auteurs pour rassembler toutes les informations nécessaires et reproduire les résultats.

Le code dans le OpenAI Le référentiel a subi des changements importants entre les versions, certains aspects sont restés inexpliqués et des particularités qui sont apparues sous forme de bugs ont produit d'une manière ou d'une autre des résultats. La complexité du PPO devient évidente lorsque vous approfondissez les détails, et pour ceux qui souhaitent une compréhension approfondie ou une amélioration personnelle, un résumé vidéo hautement recommandé est disponible.

Mais l'histoire ne s'arrête pas là. Les mêmes auteurs ont décidé de revisiter openai/ Dépôt de préférences lm-humain à partir de 2019, qui a joué un rôle crucial dans l'ajustement des modèles de langage basés sur les préférences humaines, à l'aide de PPO. Ce référentiel a marqué les premiers développements sur ChatGPT. Le récent article de blog, "Les détails de mise en œuvre N du RLHF avec PPO", reproduit fidèlement OpenAImais utilise PyTorch et des bibliothèques modernes au lieu du TensorFlow obsolète. Cette transition s'est accompagnée de son propre ensemble de défis, tels que les différences dans la mise en œuvre de l'optimiseur Adam entre les frameworks, rendant impossible la réplication de la formation sans ajustements.

L’aspect le plus intrigant de ce voyage est peut-être la quête visant à mener des expériences sur des configurations GPU spécifiques pour obtenir des métriques et des courbes d’apprentissage originales. C'est un voyage rempli de défis, depuis les contraintes de mémoire sur différents types de GPU jusqu'à la migration de OpenAI ensembles de données entre les installations de stockage.

En conclusion, l’exploration de l’optimisation proximale des politiques (PPO) dans l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) révèle un monde fascinant de complexités.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Crypto Exchange OKX répertorie Notcoin et s'apprête à introduire le trading au comptant avec la paire NOT-USDT le 16 mai
Marchés Rapport de nouvelles Technologie
Crypto Exchange OKX répertorie Notcoin et s'apprête à introduire le trading au comptant avec la paire NOT-USDT le 16 mai  
10 mai 2024
Blast lance le troisième événement de distribution Blast Gold et alloue 15 millions de points aux DApps
Marchés Rapport de nouvelles Technologie
Blast lance le troisième événement de distribution Blast Gold et alloue 15 millions de points aux DApps
10 mai 2024
Espresso Systems collabore avec Polygon Labs pour développer AggLayer afin d'améliorer l'interopérabilité des rollups
La Brochure Rapport de nouvelles Technologie
Espresso Systems collabore avec Polygon Labs pour développer AggLayer afin d'améliorer l'interopérabilité des rollups
9 mai 2024
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
Rapport de nouvelles Technologie
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
9 mai 2024
CRYPTOMERIA LABS PTE. LTD.