Rapport de nouvelles Technologie
Le 01 juin 2023

OpenAI: La nouvelle modélisation des récompenses supervisée par processus améliore le raisonnement de l'IA

En bref

OpenAILa modélisation des récompenses supervisée par processus (PRM) de vise à évaluer les étapes intermédiaires et le raisonnement des modèles d'IA, ce qui permet d'améliorer les performances et les métriques.

OpenAI a une fois de plus attiré l'attention de la communauté de l'IA avec son travail révolutionnaire sur la modélisation des récompenses supervisée par les processus (PMR). Cette approche innovante vise à évaluer les étapes intermédiaires et le raisonnement des modèles d'IA, conduisant à l'amélioration des performances et des métriques.

OpenAI: La nouvelle modélisation des récompenses supervisée par processus améliore le raisonnement de l'IA
Crédit: Metaverse Post (mpost.io)
Recommandé: ChatGPT Pourrait changer Wall Street en facilitant le trading

Dans l'apprentissage par renforcement traditionnel à partir de la rétroaction humaine (RLHF), les commentaires du modèle sont généralement donnés en fonction du résultat global généré par le modèle. Cependant, OpenAILa nouvelle recherche de explore l'idée d'évaluer les étapes individuelles et les processus de raisonnement entrepris par le modèle. Ce faisant, ils peuvent fournir des évaluations et des commentaires plus précis.

Pour résoudre ce problème, OpenAI problèmes mathématiques sélectionnés nécessitant plusieurs actions. Un séparé modèle a été formé pour évaluer efficacement les étapes intermédiaires, agissant en tant que critique pour identifier les jugements erronés faits par le modèle principal. Ce processus améliore non seulement les performances globales, mais améliore également les mesures utilisées pour évaluer les capacités du modèle.

OpenAI a fait des progrès significatifs dans ce domaine, avec la publication d'un ensemble de données méticuleusement organisé composé de 800,000 XNUMX jugements marqués. Chaque jugement représente une étape distincte dans la résolution de problèmes mathématiques et a été créé manuellement. Cela met en évidence le niveau de dévouement et de ressources OpenAI investit dans le développement d'ensembles de données de haute qualité, soulevant des questions sur le volume de données collectées pour d'autres domaines tels que la programmation ou des questions ouvertes.

La formation de GPT-4, OpenAIla dernière itération du GPT série, est déjà bien avancée. Bien que le composant RLHF ne soit pas incorporé dans les expériences actuelles, un modèle de langage pur est utilisé. Notamment, OpenAI mentionne qu'il existe plusieurs versions de GPT-4, même la plus petite version nécessitant beaucoup moins de ressources pour la formation, soit environ 200 fois moins.

Un exemple intrigant partagé par OpenAI montre comment le modèle évalue chaque étape de décision individuelle. Dans une capture d'écran incluse dans le message, les erreurs dans la solution sont signalées et reçoivent le score d'exactitude le plus bas, surligné en rouge.
Crédit: OpenAI

Un exemple intrigant partagé par OpenAI montre comment le modèle évalue chaque étape de décision individuelle. Dans une capture d'écran incluse dans le message, les erreurs dans la solution sont signalées et reçoivent le score d'exactitude le plus bas, surligné en rouge. Cette démonstration met en évidence la capacité de raisonnement du modèle et fournit des informations précieuses sur son processus de prise de décision. OpenAI a également fourni des instructions pour les annotations, offrant aux crowdsourcers la possibilité de contribuer et de bénéficier de leur travail.

As OpenAI continue de repousser les limites de la recherche en IA, leur concentration sur le raisonnement des modèles et la modélisation des récompenses supervisée par les processus offre de nouvelles possibilités pour des capacités d'IA améliorées. Cette dernière percée montre leur engagement à améliorer les performances des modèles et ouvre la voie à de nouvelles avancées dans le domaine.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Le passage de Donald Trump à la cryptographie : d'opposant à défenseur, et ce que cela signifie pour le marché américain des cryptomonnaies
La Brochure Marchés Histoires et critiques Technologie
Le passage de Donald Trump à la cryptographie : d'opposant à défenseur, et ce que cela signifie pour le marché américain des cryptomonnaies
10 mai 2024
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
Marchés Rapport de nouvelles Technologie
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
10 mai 2024
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
Marchés Sécurité Wiki Logiciels Histoires et critiques Technologie
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
10 mai 2024
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
Rapport de nouvelles Technologie
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
10 mai 2024
CRYPTOMERIA LABS PTE. LTD.