Notizie Tecnologia
Ottobre 27, 2023

I ricercatori hanno replicato OpenAIIl lavoro di Basato sulla Proximal Policy Optimization (PPO) in RLHF

L'apprendimento per rinforzo dal feedback umano (RLHF) è parte integrante dei sistemi di formazione come ChatGPTe si basa su metodi specializzati per raggiungere il successo. Inizialmente uno di questi metodi, Proximal Policy Optimization (PPO). concepito tra le mura di OpenAI nel 2017. A prima vista, PPO si è distinto per la sua promessa di semplicità di implementazione e per un numero relativamente basso di iperparametri necessari per mettere a punto il modello. Tuttavia, come si suol dire, il diavolo è nei dettagli.

I ricercatori hanno replicato OpenAIIl lavoro di Basato sulla Proximal Policy Optimization (PPO) in RLHF

Recentemente, un post sul blog intitolato “I 37 dettagli di implementazione dell'ottimizzazione della politica prossimale” ha fatto luce sulle complessità del PPO (preparato per la conferenza dell'ICLR). Già il nome suggerisce le sfide affrontate nell’implementazione di questo metodo apparentemente semplice. Sorprendentemente, gli autori hanno impiegato tre anni per raccogliere tutte le informazioni necessarie e riprodurre i risultati.

Il codice in OpenAI Il repository ha subito modifiche significative tra le versioni, alcuni aspetti sono rimasti inspiegabili e le peculiarità che apparivano come bug in qualche modo hanno prodotto risultati. La complessità del PPO diventa evidente quando si approfondiscono i dettagli e, per coloro che sono interessati a una comprensione profonda o all'auto-miglioramento, è disponibile un riepilogo video altamente raccomandato.

Ma la storia non finisce qui. Gli stessi autori hanno deciso di rivisitare il openai/lm-repository-preferenze-umane dal 2019, che ha svolto un ruolo cruciale nella messa a punto dei modelli linguistici basati sulle preferenze umane, utilizzando la PPO. Questo repository ha segnato i primi sviluppi su ChatGPT. Il recente post sul blog, “I dettagli di implementazione N di RLHF con PPO”, replica fedelmente OpenAIma utilizza PyTorch e librerie moderne invece dell'obsoleto TensorFlow. Questa transizione ha comportato una serie di sfide, come le differenze nell'implementazione dell'ottimizzatore Adam tra i framework, che hanno reso impossibile replicare la formazione senza modifiche.

Forse l'aspetto più intrigante di questo viaggio è la ricerca di eseguire esperimenti su specifiche configurazioni GPU per ottenere metriche e curve di apprendimento originali. È un viaggio pieno di sfide, dai limiti di memoria su vari tipi di GPU alla migrazione di OpenAI set di dati tra strutture di archiviazione.

In conclusione, l’esplorazione della Proximal Policy Optimization (PPO) nell’apprendimento per rinforzo dal feedback umano (RLHF) rivela un affascinante mondo di complessità.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
Affari Mercati Storie e recensioni Tecnologia
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
10 Maggio 2024
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
Mercati Notizie Tecnologia
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
10 Maggio 2024
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
Mercati Sicurezza Wiki Software Storie e recensioni Tecnologia
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
10 Maggio 2024
La rete Ethereum Layer 2 alimentata dall'ottimismo lancerà la sua mainnet il 15 maggio
Notizie Tecnologia
La rete Ethereum Layer 2 alimentata dall'ottimismo lancerà la sua mainnet il 15 maggio
10 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.