Informe de notícies Tecnologia
Juny 01, 2023

OpenAI: El nou model de recompenses supervisat per processos millora el raonament de l'IA

En breu

OpenAIEl model de recompensa supervisat per processos (PRM) de 's té com a objectiu avaluar els passos intermedis i el raonament dels models d'IA, donant lloc a un rendiment i mètriques millorats.

OpenAI ha captat una vegada més l'atenció de la comunitat d'IA amb el seu treball innovador en la modelització de recompenses supervisades per processos (PRM). Aquest enfocament innovador té com a objectiu avaluar els passos intermedis i el raonament dels models d'IA, que permetin millorar el rendiment i les mètriques.

OpenAI: El nou model de recompenses supervisat per processos millora el raonament de l'IA
Crèdit: Metaverse Post (mpost.io)
recomanat: ChatGPT Podria canviar Wall Street fent el comerç més fàcil

En l'aprenentatge de reforç tradicional a partir de la retroalimentació humana (RLHF), la retroalimentació del model es dóna normalment en funció del resultat global generat pel model. Malgrat això, OpenAILa nova investigació explora la idea d'avaluar els passos individuals i els processos de raonament realitzats pel model. En fer-ho, poden proporcionar avaluacions i comentaris més detallats.

Per fer front a aquest problema, OpenAI problemes matemàtics seleccionats que requereixen múltiples accions. Un separat model va ser entrenat per avaluar eficaçment els passos intermedis, actuant com a crític per identificar els judicis erronis fets pel model primari. Aquest procés no només millora el rendiment general sinó que també millora les mètriques utilitzades per avaluar les capacitats del model.

OpenAI ha fet avenços significatius en aquesta àrea, amb el llançament d'un conjunt de dades meticulosament curat que consta de 800,000 judicis marcats. Cada judici representa una etapa separada en la resolució de problemes matemàtics i s'ha creat manualment. Això posa de manifest el nivell de dedicació i recursos OpenAI inverteix en el desenvolupament de conjunts de dades d'alta qualitat, plantejant preguntes sobre el volum de dades recollides per a altres dominis com ara programació o preguntes obertes.

La formació de GPT-4, OpenAIdarrera iteració de GPT sèrie, ja està en marxa. Tot i que el component RLHF no s'incorpora als experiments actuals, s'utilitza un model de llenguatge pur. En particular, OpenAI esmenta que hi ha diverses versions de GPT-4, amb fins i tot la versió més petita que requereix molt menys recursos per a la formació, aproximadament 200 vegades menys.

Un exemple intrigant compartit per OpenAI mostra com el model avalua cada pas de decisió individual. En una captura de pantalla inclosa a la publicació, es marquen els errors de la solució i se'ls dóna la puntuació de correcció més baixa, ressaltada en vermell.
Crèdit: OpenAI

Un exemple intrigant compartit per OpenAI mostra com s'avalua el model cada pas de decisió individual. En una captura de pantalla inclosa a la publicació, es marquen els errors de la solució i se'ls dóna la puntuació de correcció més baixa, ressaltada en vermell. Aquesta demostració posa de manifest la capacitat de raonament del model i proporciona informació valuosa sobre el seu procés de presa de decisions. OpenAI també ha proporcionat instruccions per a les marques, oferint oportunitats perquè els crowdsourcers contribueixin i es beneficiïn del seu treball.

As OpenAI segueix impulsant els límits de la investigació en IA, el seu enfocament en el raonament del model i el modelatge de recompenses supervisats per processos ofereix noves possibilitats per millorar les capacitats d'IA. Aquest darrer avenç mostra el seu compromís amb la millora del rendiment del model i obre les portes a nous avenços en el camp.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
El canvi de Donald Trump a la criptografia: d'oponent a defensor i què significa per al mercat de criptomonedes dels EUA
Negocis mercats Històries i ressenyes Tecnologia
El canvi de Donald Trump a la criptografia: d'oponent a defensor i què significa per al mercat de criptomonedes dels EUA
Pot 10, 2024
Layer3 llançarà el testimoni L3 aquest estiu, destinant el 51% del subministrament total a la comunitat
mercats Informe de notícies Tecnologia
Layer3 llançarà el testimoni L3 aquest estiu, destinant el 51% del subministrament total a la comunitat
Pot 10, 2024
L'advertència final d'Edward Snowden als desenvolupadors de Bitcoin: "Fes de la privadesa una prioritat a nivell de protocol o arrisca a perdre-la
mercats Seguretat Wiki Software Històries i ressenyes Tecnologia
L'advertència final d'Edward Snowden als desenvolupadors de Bitcoin: "Fes de la privadesa una prioritat a nivell de protocol o arrisca a perdre-la
Pot 10, 2024
Ethereum Layer 2 Network Mint, impulsat per l'optimisme, llançarà la seva xarxa principal el 15 de maig
Informe de notícies Tecnologia
Ethereum Layer 2 Network Mint, impulsat per l'optimisme, llançarà la seva xarxa principal el 15 de maig
Pot 10, 2024
CRYPTOMERIA LABS PTE. LTD.