OpenAI: Noua modelare a recompensei supravegheată de proces îmbunătățește raționamentul AI
Pe scurt
OpenAIModelarea recompensei supravegheate de proces (PRM) are scopul de a evalua pașii intermediari și raționamentul modelelor de inteligență artificială, care să conducă la îmbunătățirea performanței și a valorilor.
OpenAI a captat din nou atenția comunității AI cu munca lor inovatoare în modelarea recompenselor supravegheate de proces (PRMs). Această abordare inovatoare își propune să evalueze pașii intermediari și raționamentul modelelor AI, ceea ce duce la îmbunătățirea performanței și a parametrilor.
În învățarea tradițională prin întărire din feedbackul uman (Rlhf), feedback-ul modelului este de obicei dat pe baza rezultatului general generat de model. In orice caz, OpenAINoua cercetare explorează ideea evaluării pașilor individuali și proceselor de raționament întreprinse de model. Procedând astfel, ei pot oferi evaluări și feedback mai precis.
Pentru a rezolva această problemă, OpenAI probleme matematice selectate care necesitau acțiuni multiple. Un separat model a fost instruit să evalueze eficient pașii intermediari, acționând ca un critic pentru a identifica orice judecăți eronate făcute de modelul primar. Acest proces nu numai că îmbunătățește performanța generală, dar îmbunătățește și valorile utilizate pentru a evalua capacitățile modelului.
OpenAI a făcut progrese semnificative în acest domeniu, odată cu lansarea unui set de date meticulos, care constă în 800,000 de hotărâri marcate. Fiecare judecată reprezintă o etapă separată în rezolvarea problemelor matematice și a fost creată manual. Acest lucru evidențiază nivelul de dedicare și resurse OpenAI investește în dezvoltarea de seturi de date de înaltă calitate, ridicând întrebări cu privire la volumul de date colectate pentru alte domenii, cum ar fi programarea sau întrebările deschise.
Instruirea de GPT-4, OpenAIcea mai recentă iterație a lui GPT seria, este deja în plină desfășurare. Deși componenta RLHF nu este încorporată în experimentele curente, este utilizat un model de limbaj pur. În special, OpenAI menționează că există mai multe versiuni ale GPT-4, chiar și cea mai mică versiune necesitând mult mai puține resurse pentru antrenament — de aproximativ 200 de ori mai puține.
Un exemplu intrigant împărtășit de OpenAI prezintă modul în care modelul evaluează fiecare pas de decizie individual. Într-o captură de ecran inclusă în postare, erorile din soluție sunt semnalate și li se acordă cel mai mic scor de corectitudine, evidențiat cu roșu. Această demonstrație evidențiază capacitatea modelului de a raționa și oferă perspective valoroase asupra procesului său de luare a deciziilor. OpenAI a oferit, de asemenea, instrucțiuni pentru markupuri, oferind oportunități pentru crowdsources de a contribui și de a beneficia de munca lor.
As OpenAI continuă să depășească granițele cercetării AI, concentrarea lor pe raționamentul modelului și modelarea recompenselor supravegheate de proces aduc noi posibilități pentru capacități AI îmbunătățite. Această ultimă descoperire demonstrează angajamentul lor de a îmbunătăți performanța modelului și deschide porțile către noi progrese în domeniu.
- Recent, Apple restricționează utilizarea de către angajați ChatGPT și alți chatbot alimentați cu inteligență artificială din cauza preocupărilor legate de confidențialitate. Wall Street Journal a raportat că lucrătorilor li se interzice, de asemenea, să folosească instrumentul AI al GitHub Copilot, care permite utilizatorilor să scrie automat codul software. ChatGPT este un chatbot alimentat de AI dezvoltat de OpenAI, care a fost criticat pentru încălcarea vieții private.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.