Notizie Tecnologia
01 Giugno 2023

OpenAI: Il nuovo modello di ricompensa supervisionato dal processo migliora il ragionamento dell'IA

In Breve

OpenAIIl modello di ricompensa supervisionato dal processo (PRM) di mira a valutare i passaggi intermedi e il ragionamento dei modelli di intelligenza artificiale, portando a prestazioni e parametri migliorati.

OpenAI ha catturato ancora una volta l'attenzione della comunità dell'intelligenza artificiale con il suo lavoro innovativo nella modellazione delle ricompense supervisionata dal processo (PRM). Questo approccio innovativo mira a valutare i passaggi intermedi e il ragionamento dei modelli di intelligenza artificiale, portando a prestazioni e metriche migliori.

OpenAI: Il nuovo modello di ricompensa supervisionato dal processo migliora il ragionamento dell'intelligenza artificiale
Crediti: Metaverse Post (mpost.io)
Consigliato: ChatGPT Potrebbe cambiare Wall Street rendendo il trading più facile

Nell'apprendimento di rinforzo tradizionale dal feedback umano (RLHF), il feedback del modello viene generalmente fornito in base al risultato complessivo generato dal modello. Tuttavia, OpenAILa nuova ricerca esplora l'idea di valutare i singoli passaggi e i processi di ragionamento intrapresi dal modello. In questo modo, possono fornire valutazioni e feedback più dettagliati.

Per affrontare questo problema, OpenAI selezionati problemi matematici che richiedevano più azioni. Un separato modello è stato addestrato a valutare efficacemente i passaggi intermedi, fungendo da critico per identificare eventuali giudizi errati espressi dal modello primario. Questo processo non solo migliora le prestazioni complessive, ma migliora anche le metriche utilizzate per valutare le capacità del modello.

OpenAI ha fatto passi da gigante in questo settore, con il rilascio di un set di dati meticolosamente curato composto da 800,000 sentenze contrassegnate. Ogni giudizio rappresenta una fase separata nella risoluzione di problemi matematici ed è stato creato manualmente. Ciò evidenzia il livello di dedizione e risorse OpenAI investe nello sviluppo di set di dati di alta qualità, sollevando interrogativi sul volume di dati raccolti per altri domini come la programmazione o domande aperte.

La formazione di GPT-4, OpenAIè l'ultima iterazione del GPT serie, è già ben avviato. Sebbene la componente RLHF non sia incorporata negli attuali esperimenti, viene utilizzato un modello linguistico puro. In particolare, OpenAI menziona che esistono più versioni di GPT-4, con anche la versione più piccola che richiede molte meno risorse per la formazione, circa 200 volte meno.

Un esempio intrigante condiviso da OpenAI mostra come il modello valuta ogni singola fase decisionale. In uno screenshot incluso nel post, gli errori nella soluzione vengono contrassegnati e viene assegnato il punteggio di correttezza più basso, evidenziato in rosso.
Crediti: OpenAI

Un esempio intrigante condiviso da OpenAI mostra come viene valutato il modello ogni singola fase decisionale. In uno screenshot incluso nel post, gli errori nella soluzione vengono contrassegnati e viene assegnato il punteggio di correttezza più basso, evidenziato in rosso. Questa dimostrazione evidenzia la capacità di ragionamento del modello e fornisce preziose informazioni sul suo processo decisionale. OpenAI ha anche fornito istruzioni per i markup, offrendo opportunità ai crowdsourcer di contribuire e trarre vantaggio dal proprio lavoro.

As OpenAI continua a espandere i confini della ricerca sull’intelligenza artificiale, la loro attenzione al ragionamento dei modelli e alla modellazione delle ricompense supervisionate dai processi offre nuove possibilità per capacità di intelligenza artificiale migliorate. Quest'ultima svolta dimostra il loro impegno nel migliorare le prestazioni dei modelli e apre le porte a ulteriori progressi nel campo.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
Affari Mercati Storie e recensioni Tecnologia
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
10 Maggio 2024
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
Mercati Notizie Tecnologia
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
10 Maggio 2024
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
Mercati Sicurezza Wiki Software Storie e recensioni Tecnologia
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
10 Maggio 2024
La rete Ethereum Layer 2 alimentata dall'ottimismo lancerà la sua mainnet il 15 maggio
Notizie Tecnologia
La rete Ethereum Layer 2 alimentata dall'ottimismo lancerà la sua mainnet il 15 maggio
10 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.