OpenAI: La nouvelle modélisation des récompenses supervisée par processus améliore le raisonnement de l'IA
En bref
OpenAILa modélisation des récompenses supervisée par processus (PRM) de vise à évaluer les étapes intermédiaires et le raisonnement des modèles d'IA, ce qui permet d'améliorer les performances et les métriques.
OpenAI a une fois de plus attiré l'attention de la communauté de l'IA avec son travail révolutionnaire sur la modélisation des récompenses supervisée par les processus (PMR). Cette approche innovante vise à évaluer les étapes intermédiaires et le raisonnement des modèles d'IA, conduisant à l'amélioration des performances et des métriques.
Dans l'apprentissage par renforcement traditionnel à partir de la rétroaction humaine (RLHF), les commentaires du modèle sont généralement donnés en fonction du résultat global généré par le modèle. Cependant, OpenAILa nouvelle recherche de explore l'idée d'évaluer les étapes individuelles et les processus de raisonnement entrepris par le modèle. Ce faisant, ils peuvent fournir des évaluations et des commentaires plus précis.
Pour résoudre ce problème, OpenAI problèmes mathématiques sélectionnés nécessitant plusieurs actions. Un séparé modèle a été formé pour évaluer efficacement les étapes intermédiaires, agissant en tant que critique pour identifier les jugements erronés faits par le modèle principal. Ce processus améliore non seulement les performances globales, mais améliore également les mesures utilisées pour évaluer les capacités du modèle.
OpenAI a fait des progrès significatifs dans ce domaine, avec la publication d'un ensemble de données méticuleusement organisé composé de 800,000 XNUMX jugements marqués. Chaque jugement représente une étape distincte dans la résolution de problèmes mathématiques et a été créé manuellement. Cela met en évidence le niveau de dévouement et de ressources OpenAI investit dans le développement d'ensembles de données de haute qualité, soulevant des questions sur le volume de données collectées pour d'autres domaines tels que la programmation ou des questions ouvertes.
La formation de GPT-4, OpenAIla dernière itération du GPT série, est déjà bien avancée. Bien que le composant RLHF ne soit pas incorporé dans les expériences actuelles, un modèle de langage pur est utilisé. Notamment, OpenAI mentionne qu'il existe plusieurs versions de GPT-4, même la plus petite version nécessitant beaucoup moins de ressources pour la formation, soit environ 200 fois moins.
Un exemple intrigant partagé par OpenAI montre comment le modèle évalue chaque étape de décision individuelle. Dans une capture d'écran incluse dans le message, les erreurs dans la solution sont signalées et reçoivent le score d'exactitude le plus bas, surligné en rouge. Cette démonstration met en évidence la capacité de raisonnement du modèle et fournit des informations précieuses sur son processus de prise de décision. OpenAI a également fourni des instructions pour les annotations, offrant aux crowdsourcers la possibilité de contribuer et de bénéficier de leur travail.
As OpenAI continue de repousser les limites de la recherche en IA, leur concentration sur le raisonnement des modèles et la modélisation des récompenses supervisée par les processus offre de nouvelles possibilités pour des capacités d'IA améliorées. Cette dernière percée montre leur engagement à améliorer les performances des modèles et ouvre la voie à de nouvelles avancées dans le domaine.
- Récemment, Apple aurait limité l'utilisation par ses employés de ChatGPT et d'autres chatbots alimentés par l'IA en raison de problèmes de confidentialité. Le Wall Street Journal a rapporté que les travailleurs ne sont pas autorisés à utiliser l'outil d'intelligence artificielle Copilot de GitHub, qui permet aux utilisateurs d'écrire automatiquement du code logiciel. ChatGPT est un chatbot basé sur l'IA développé par OpenAI, qui a été critiqué pour violation de la vie privée.
En savoir plus sur l'IA :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.