OpenAI: Novo modeliranje nagrađivanja pod nadzorom procesa poboljšava AI rasuđivanje
Ukratko
OpenAIProcesno nadzirano modeliranje nagrađivanja (PRM) ima za cilj procijeniti međukorake i obrazloženje AI modela, što dovodi do poboljšane izvedbe i metrike.
OpenAI je još jednom zaokupio pozornost AI zajednice svojim revolucionarnim radom u modeliranju nagrađivanja nadziranog procesa (PRM). Ovaj inovativni pristup ima za cilj procijeniti međukorake i obrazloženje AI modela, što dovodi do poboljšane izvedbe i metrike.
U tradicionalnom učenju s pojačanjem iz ljudske povratne informacije (RLHF), povratne informacije o modelu obično se daju na temelju ukupnog rezultata koji je generirao model. Međutim, OpenAINovo istraživanje istražuje ideju ocjenjivanja pojedinačnih koraka i procesa razmišljanja koje poduzima model. Na taj način mogu pružiti detaljnije procjene i povratne informacije.
Da biste riješili ovaj problem, OpenAI odabrani matematički problemi koji su zahtijevali više radnji. Odvojena model bio je obučen za učinkovitu procjenu srednjih koraka, djelujući kao kritičar za prepoznavanje svih pogrešnih prosudbi koje je donio primarni model. Ovaj proces ne samo da poboljšava ukupnu izvedbu, već također poboljšava metriku koja se koristi za procjenu mogućnosti modela.
OpenAI napravio je značajne korake u ovom području, izdavanjem pažljivo odabranog skupa podataka koji se sastoji od 800,000 označenih presuda. Svaka prosudba predstavlja zasebnu fazu u rješavanju matematičkih problema i ručno je kreirana. Ovo naglašava razinu predanosti i resursa OpenAI ulaže u razvoj skupova podataka visoke kvalitete, postavljajući pitanja o količini podataka prikupljenih za druge domene kao što su programiranje ili otvorena pitanja.
Trening za GPT-4, OpenAIposljednja iteracija GPT serije, već je uveliko u tijeku. Iako RLHF komponenta nije uključena u trenutne eksperimente, koristi se čisti jezični model. Posebno, OpenAI spominje da postoji više verzija GPT-4, pri čemu čak i najmanja verzija zahtijeva znatno manje resursa za obuku—otprilike 200 puta manje.
Intrigantan primjer koji dijeli OpenAI prikazuje kako model procjenjuje svaki pojedinačni korak odluke. Na snimci zaslona uključenoj u objavu, pogreške u rješenju označene su zastavicom i dodijeljena im je najniža ocjena ispravnosti, označena crvenom bojom. Ova demonstracija naglašava sposobnost razmišljanja modela i pruža vrijedan uvid u proces donošenja odluka. OpenAI je također pružio upute za označavanje, nudeći mogućnosti za crowdsourcers da doprinesu i imaju koristi od svog rada.
As OpenAI nastavlja pomicati granice istraživanja umjetne inteligencije, njihov fokus na razmišljanje modela i procesno nadzirano modeliranje nagrada donosi nove mogućnosti za poboljšane sposobnosti umjetne inteligencije. Ovo najnovije otkriće pokazuje njihovu predanost poboljšanju performansi modela i otvara vrata daljnjem napretku na tom polju.
- Nedavno, Apple navodno ograničava zaposlenicima korištenje ChatGPT i drugih chatbota koje pokreće umjetna inteligencija zbog problema s privatnošću. Wall Street Journal izvijestio je da je radnicima također zabranjeno korištenje GitHubovog AI alata Copilot, koji omogućuje korisnicima automatsko pisanje softverskog koda. ChatGPT je chatbot koji pokreće AI koji je razvio OpenAI, koja je kritizirana zbog kršenja privatnosti.
Pročitajte više o AI:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.