Vijesti Tehnologija
Lipnja 01, 2023

OpenAI: Novo modeliranje nagrađivanja pod nadzorom procesa poboljšava AI rasuđivanje

Ukratko

OpenAIProcesno nadzirano modeliranje nagrađivanja (PRM) ima za cilj procijeniti međukorake i obrazloženje AI modela, što dovodi do poboljšane izvedbe i metrike.

OpenAI je još jednom zaokupio pozornost AI zajednice svojim revolucionarnim radom u modeliranju nagrađivanja nadziranog procesa (PRM). Ovaj inovativni pristup ima za cilj procijeniti međukorake i obrazloženje AI modela, što dovodi do poboljšane izvedbe i metrike.

OpenAI: Novo modeliranje nagrađivanja pod nadzorom procesa poboljšava AI rasuđivanje
kredit: Metaverse Post (mpost.io)
preporučeno: ChatGPT Mogao bi promijeniti Wall Street tako što bi olakšao trgovanje

U tradicionalnom učenju s pojačanjem iz ljudske povratne informacije (RLHF), povratne informacije o modelu obično se daju na temelju ukupnog rezultata koji je generirao model. Međutim, OpenAINovo istraživanje istražuje ideju ocjenjivanja pojedinačnih koraka i procesa razmišljanja koje poduzima model. Na taj način mogu pružiti detaljnije procjene i povratne informacije.

Da biste riješili ovaj problem, OpenAI odabrani matematički problemi koji su zahtijevali više radnji. Odvojena model bio je obučen za učinkovitu procjenu srednjih koraka, djelujući kao kritičar za prepoznavanje svih pogrešnih prosudbi koje je donio primarni model. Ovaj proces ne samo da poboljšava ukupnu izvedbu, već također poboljšava metriku koja se koristi za procjenu mogućnosti modela.

OpenAI napravio je značajne korake u ovom području, izdavanjem pažljivo odabranog skupa podataka koji se sastoji od 800,000 označenih presuda. Svaka prosudba predstavlja zasebnu fazu u rješavanju matematičkih problema i ručno je kreirana. Ovo naglašava razinu predanosti i resursa OpenAI ulaže u razvoj skupova podataka visoke kvalitete, postavljajući pitanja o količini podataka prikupljenih za druge domene kao što su programiranje ili otvorena pitanja.

Trening za GPT-4, OpenAIposljednja iteracija GPT serije, već je uveliko u tijeku. Iako RLHF komponenta nije uključena u trenutne eksperimente, koristi se čisti jezični model. Posebno, OpenAI spominje da postoji više verzija GPT-4, pri čemu čak i najmanja verzija zahtijeva znatno manje resursa za obuku—otprilike 200 puta manje.

Intrigantan primjer koji dijeli OpenAI prikazuje kako model procjenjuje svaki pojedinačni korak odlučivanja. Na snimci zaslona uključenoj u objavu, pogreške u rješenju označene su zastavicom i dodijeljena im je najniža ocjena ispravnosti, označena crvenom bojom.
kredit: OpenAI

Intrigantan primjer koji dijeli OpenAI prikazuje kako model procjenjuje svaki pojedinačni korak odluke. Na snimci zaslona uključenoj u objavu, pogreške u rješenju označene su zastavicom i dodijeljena im je najniža ocjena ispravnosti, označena crvenom bojom. Ova demonstracija naglašava sposobnost razmišljanja modela i pruža vrijedan uvid u proces donošenja odluka. OpenAI je također pružio upute za označavanje, nudeći mogućnosti za crowdsourcers da doprinesu i imaju koristi od svog rada.

As OpenAI nastavlja pomicati granice istraživanja umjetne inteligencije, njihov fokus na razmišljanje modela i procesno nadzirano modeliranje nagrada donosi nove mogućnosti za poboljšane sposobnosti umjetne inteligencije. Ovo najnovije otkriće pokazuje njihovu predanost poboljšanju performansi modela i otvara vrata daljnjem napretku na tom polju.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Hot Stories
Pridružite se našem biltenu.
Najnovije vijesti

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
posao tržišta Priče i recenzije Tehnologija
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
Neka 10, 2024
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
tržišta Vijesti Tehnologija
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
Neka 10, 2024
Posljednje upozorenje Edwarda Snowdena programerima Bitcoina: Neka privatnost postane prioritet na razini protokola ili riskirate da je izgubite
tržišta Sigurnost Wiki softver Priče i recenzije Tehnologija
Posljednje upozorenje Edwarda Snowdena programerima Bitcoina: Neka privatnost postane prioritet na razini protokola ili riskirate da je izgubite
Neka 10, 2024
Optimism-powered Ethereum Layer 2 Network Mint lansirat će svoj Mainnet 15. svibnja
Vijesti Tehnologija
Optimism-powered Ethereum Layer 2 Network Mint lansirat će svoj Mainnet 15. svibnja
Neka 10, 2024
CRYPTOMERIA LABS PTE. LTD.