Buletin de stiri Tehnologia
01 Iunie, 2023

OpenAI: Noua modelare a recompensei supravegheată de proces îmbunătățește raționamentul AI

Pe scurt

OpenAIModelarea recompensei supravegheate de proces (PRM) are scopul de a evalua pașii intermediari și raționamentul modelelor de inteligență artificială, care să conducă la îmbunătățirea performanței și a valorilor.

OpenAI a captat din nou atenția comunității AI cu munca lor inovatoare în modelarea recompenselor supravegheate de proces (PRMs). Această abordare inovatoare își propune să evalueze pașii intermediari și raționamentul modelelor AI, ceea ce duce la îmbunătățirea performanței și a parametrilor.

OpenAI: Noua modelare a recompensei supravegheată de proces îmbunătățește raționamentul AI
Credit: Metaverse Post (mpost.io)
Recomandat: ChatGPT Ar putea schimba Wall Street, ușurând tranzacțiile

În învățarea tradițională prin întărire din feedbackul uman (Rlhf), feedback-ul modelului este de obicei dat pe baza rezultatului general generat de model. In orice caz, OpenAINoua cercetare explorează ideea evaluării pașilor individuali și proceselor de raționament întreprinse de model. Procedând astfel, ei pot oferi evaluări și feedback mai precis.

Pentru a rezolva această problemă, OpenAI probleme matematice selectate care necesitau acțiuni multiple. Un separat model a fost instruit să evalueze eficient pașii intermediari, acționând ca un critic pentru a identifica orice judecăți eronate făcute de modelul primar. Acest proces nu numai că îmbunătățește performanța generală, dar îmbunătățește și valorile utilizate pentru a evalua capacitățile modelului.

OpenAI a făcut progrese semnificative în acest domeniu, odată cu lansarea unui set de date meticulos, care constă în 800,000 de hotărâri marcate. Fiecare judecată reprezintă o etapă separată în rezolvarea problemelor matematice și a fost creată manual. Acest lucru evidențiază nivelul de dedicare și resurse OpenAI investește în dezvoltarea de seturi de date de înaltă calitate, ridicând întrebări cu privire la volumul de date colectate pentru alte domenii, cum ar fi programarea sau întrebările deschise.

Instruirea de GPT-4, OpenAIcea mai recentă iterație a lui GPT seria, este deja în plină desfășurare. Deși componenta RLHF nu este încorporată în experimentele curente, este utilizat un model de limbaj pur. În special, OpenAI menționează că există mai multe versiuni ale GPT-4, chiar și cea mai mică versiune necesitând mult mai puține resurse pentru antrenament — de aproximativ 200 de ori mai puține.

Un exemplu intrigant împărtășit de OpenAI prezintă modul în care modelul evaluează fiecare pas de decizie individual. Într-o captură de ecran inclusă în postare, erorile din soluție sunt semnalate și li se acordă cel mai mic scor de corectitudine, evidențiat cu roșu.
Credit: OpenAI

Un exemplu intrigant împărtășit de OpenAI prezintă modul în care modelul evaluează fiecare pas de decizie individual. Într-o captură de ecran inclusă în postare, erorile din soluție sunt semnalate și li se acordă cel mai mic scor de corectitudine, evidențiat cu roșu. Această demonstrație evidențiază capacitatea modelului de a raționa și oferă perspective valoroase asupra procesului său de luare a deciziilor. OpenAI a oferit, de asemenea, instrucțiuni pentru markupuri, oferind oportunități pentru crowdsources de a contribui și de a beneficia de munca lor.

As OpenAI continuă să depășească granițele cercetării AI, concentrarea lor pe raționamentul modelului și modelarea recompenselor supravegheate de proces aduc noi posibilități pentru capacități AI îmbunătățite. Această ultimă descoperire demonstrează angajamentul lor de a îmbunătăți performanța modelului și deschide porțile către noi progrese în domeniu.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Trecerea lui Donald Trump la criptomonede: de la oponent la avocat și ce înseamnă aceasta pentru piața criptomonedelor din SUA
Afaceri pieţe Povești și recenzii Tehnologia
Trecerea lui Donald Trump la criptomonede: de la oponent la avocat și ce înseamnă aceasta pentru piața criptomonedelor din SUA
10 Mai, 2024
Layer3 va lansa tokenul L3 vara aceasta, alocand 51% din totalul aprovizionării comunității
pieţe Buletin de stiri Tehnologia
Layer3 va lansa tokenul L3 vara aceasta, alocand 51% din totalul aprovizionării comunității
10 Mai, 2024
Avertismentul final al lui Edward Snowden pentru dezvoltatorii Bitcoin: „Faceți din confidențialitate o prioritate la nivel de protocol sau riscați să o pierdeți
pieţe Securitate Wiki Software Povești și recenzii Tehnologia
Avertismentul final al lui Edward Snowden pentru dezvoltatorii Bitcoin: „Faceți din confidențialitate o prioritate la nivel de protocol sau riscați să o pierdeți
10 Mai, 2024
Ethereum Layer 2 Network Mint, alimentat de optimism, își va lansa rețeaua principală pe 15 mai
Buletin de stiri Tehnologia
Ethereum Layer 2 Network Mint, alimentat de optimism, își va lansa rețeaua principală pe 15 mai
10 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.