Buletin de stiri Tehnologia
Iulie 20, 2023

Studiul lui Stanford confirmă GPT-4 Devine prost

Pe scurt

Un studiu realizat de Matei Zaharia și echipa sa de la Stanford și UC Berkeley a comparat performanța lui GPT-4 și ChatGPT pentru a răspunde preocupărilor utilizatorilor cu privire la eficacitatea modelului.

Studiul a evaluat modelele pe patru sarcini specifice: matematică, codificare, sensibilitate și raționament vizual.

Matei Zaharia și echipa sa din Stanford și UC Berkeley a efectuat un studiu care a comparat performanța de GPT-4 la ChatGPT. Această investigație a încercat să abordeze preocupările utilizatorilor că eficiența modelului s-a diminuat.

Studiul lui Stanford confirmă GPT-4 Devine prost
Credit: Metaverse Post
Legate de: GPT-4 Raport GPT-3: Ce are de oferit noul model?

Cercetătorii au conceput studiul pentru a evalua modelele pe patru sarcini specifice. Aceste sarcini au inclus:

  • Matematică: capacitatea modelului de a determina dacă un anumit număr este prim sau compus.
  • Codificare: Evaluarea capacității modelului de a genera cod semnificativ și funcțional.
  • Sensibilitate: analiza răspunsurilor modelului la întrebări cu conținut potențial „toxic”.
  • Raționament vizual: testarea aptitudinii modelului pentru rezolvarea problemelor care implică tipare vizuale, folosind benchmark-ul ARC. Participanții au trebuit să identifice modele într-un set de imagini și să le aplice pentru a rezolva un nou exemplu.

În domeniul matematicii, ambele GPT-4 versiunile, versiunile din martie și iunie, au arătat o acuratețe constantă în determinarea numerelor prime și compuse. Modelele au arătat competență în gestionarea acestor calcule, oferind rezultate fiabile.

Trecand la codificare, GPT-4 a prezentat o capacitate îmbunătățită de a genera cod semnificativ și funcțional în comparație cu predecesorii săi. Capacitățile de generare de cod ale modelului s-au arătat promițătoare, oferind potențiale beneficii pentru dezvoltatori și programatori.

În ceea ce privește sensibilitatea, studiul a evaluat răspunsurile modelelor la întrebări care conțin conținut potențial dăunător sau ofensator. GPT-4 a demonstrat o analiză îmbunătățită a sensibilității și a afișat o capacitate îmbunătățită de a oferi răspunsuri adecvate în astfel de contexte. Acest lucru înseamnă un pas pozitiv înainte în abordarea preocupărilor utilizatorilor cu privire la rezultate potențial problematice.

În cele din urmă, sarcinile de raționament vizual bazate pe benchmark-ul ARC au fost finalizate cu succes de ambii GPT-4 versiuni. Modelele au identificat în mod eficient modelele din seturile de imagini și au demonstrat capacitatea de a aplica aceste modele pentru a rezolva noi exemple. Acest lucru demonstrează capacitatea lor de înțelegere și raționament vizual.

Rezultatele indică faptul că GPT-4 a prezentat o scădere a preciziei, cu doar puțin peste 2% din răspunsurile corecte. Este important de menționat că acest test special evaluează în primul rând capacitatea modelului de a reaminti date, mai degrabă decât să-și arate abilitățile matematice inerente. Sarcina se învârte în jurul retragerii memoriei, deoarece modelului îi lipsește capacitatea de validare și deducere a calculelor, în special când vine vorba de numere prime.

ChatGPT a demonstrat o creștere substanțială a parametrilor de performanță până în iunie, prezentând o îmbunătățire remarcabilă de peste zece ori. Deși studiul nu a analizat factorii specifici care contribuie la această îmbunătățire, evidențiază ChatGPTprogresul lui în raționamentul matematic și capabilitățile de rezolvare a problemelor.

Studiul nu a evaluat calitatea sau corectitudinea codului generat. În schimb, modelele păreau să prezinte un comportament mai „personalizat”, oferind fragmente de cod fără a-și asigura acuratețea funcțională.
Legate de: Peste 10 cele mai bune instrumente de îmbunătățire a fotografiilor AI în 2023

Calitatea GPT-4 și ChatGPT a fost chestionat după o analiză a abilităților lor de programare. Cu toate acestea, o privire mai atentă dezvăluie câteva nuanțe fascinante care contrazic primele impresii.

Autorii nu au executat sau verificat codul pentru corectitudine; evaluarea lor sa bazat exclusiv pe validitatea sa ca cod Python. În plus, modelele păreau să fi învățat o tehnică specifică de încadrare a codului folosind un decorator, care a împiedicat neintenționat execuția codului.

Ca rezultat, devine evident că nici rezultatele, nici experimentul în sine nu pot fi considerate ca dovadă a degradării modelului. În schimb, modelele demonstrează o abordare diferită pentru generarea de răspunsuri, reflectând potențial variații în formarea lor.

O examinare a abilităților de programare și matematică ale GPT-4 și ChatGPT a făcut lumină asupra unor constatări interesante. Spre deosebire de ipotezele inițiale, modelele au demonstrat îmbunătățiri notabile în anumite domenii, în timp ce prezintă modificări comportamentale în altele.

Când vine vorba de sarcini de programare, ambele modele au arătat o scădere a răspunsului la solicitările „greșite”, cu GPT-4 manifestând o reducere de peste patru ori în astfel de cazuri. În plus, la sarcina de raționament vizual, calitatea răspunsurilor s-a îmbunătățit cu câteva puncte procentuale pentru ambele modele. Aceste observații indică mai degrabă un progres decât o degradare a performanței.

Cu toate acestea, evaluarea abilităților matematice introduce un element intrigant. Modelele au furnizat în mod constant numere prime ca răspunsuri, indicând un răspuns consistent „da”. Cu toate acestea, la introducerea numerelor compuse în eșantion, a devenit evident că modelele și-au schimbat comportamentul și au început să ofere răspunsuri „nu”, sugerând mai degrabă incertitudine decât o scădere a calității. Testul în sine este deosebit și unilateral, iar rezultatele sale pot fi atribuite schimbărilor în comportamentul modelului, mai degrabă decât unei scăderi a calității.

Este important să rețineți că versiunile API au fost testate, și nu versiunile bazate pe browser. Deși este posibil ca modelele din browser să fi suferit ajustări pentru optimizarea resurselor, studiul atașat nu defidemonstrează în mod clar această ipoteză. Impactul unor astfel de schimbări poate fi comparabil cu retrogradările reale ale modelului, ceea ce duce la potențiale provocări pentru utilizatorii care se bazează pe anumite activități. solicitări si experienta acumulata.

În cazul în care GPT-4 Aplicații API, aceste abateri de comportament pot avea consecințe tangibile. Codul care a fost dezvoltat pe baza nevoilor și sarcinilor unui anumit utilizator poate să nu mai funcționeze conform intenției dacă modelul suferă modificări în comportamentul său.

Se recomandă utilizatorilor să încorporeze practici similare de testare în fluxurile lor de lucru. Prin crearea unui set de solicitări, texte însoțitoare și rezultatele așteptate, utilizatorii pot verifica în mod regulat coerența dintre așteptările lor și răspunsurile modelului. De îndată ce sunt detectate orice abateri, pot fi luate măsuri adecvate pentru a remedia situația.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
BLOCKCHANCE și CONF3RENCE se unesc pentru cel mai mare din Germania Web3 Conferință la Dortmund
Afaceri pieţe Software Povești și recenzii Tehnologia
BLOCKCHANCE și CONF3RENCE se unesc pentru cel mai mare din Germania Web3 Conferință la Dortmund
9 Mai, 2024
NuLink se lansează pe Bybit Web3 Platforma IDO. Faza de abonament se prelungește până pe 13 mai
pieţe Buletin de stiri Tehnologia
NuLink se lansează pe Bybit Web3 Platforma IDO. Faza de abonament se prelungește până pe 13 mai
9 Mai, 2024
UXLINK și Binance colaborează la o nouă campanie, oferind utilizatorilor 20 de milioane de puncte UXUY și Airdrop Recompense
pieţe Buletin de stiri Tehnologia
UXLINK și Binance colaborează la o nouă campanie, oferind utilizatorilor 20 de milioane de puncte UXUY și Airdrop Recompense
9 Mai, 2024
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
pieţe Buletin de stiri Tehnologia
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
9 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.