Buletin de stiri Tehnologia
Iulie 20, 2023

Studiul lui Stanford confirmă GPT-4 Devine prost

Pe scurt

Un studiu realizat de Matei Zaharia și echipa sa de la Stanford și UC Berkeley a comparat performanța lui GPT-4 și ChatGPT pentru a răspunde preocupărilor utilizatorilor cu privire la eficacitatea modelului.

Studiul a evaluat modelele pe patru sarcini specifice: matematică, codificare, sensibilitate și raționament vizual.

Matei Zaharia și echipa sa din Stanford și UC Berkeley a efectuat un studiu care a comparat performanța de GPT-4 la ChatGPT. Această investigație a încercat să abordeze preocupările utilizatorilor că eficiența modelului s-a diminuat.

Studiul lui Stanford confirmă GPT-4 Devine prost
Credit: Metaverse Post
Legate de: GPT-4 Raport GPT-3: Ce are de oferit noul model?

Cercetătorii au conceput studiul pentru a evalua modelele pe patru sarcini specifice. Aceste sarcini au inclus:

  • Matematică: capacitatea modelului de a determina dacă un anumit număr este prim sau compus.
  • Codificare: Evaluarea capacității modelului de a genera cod semnificativ și funcțional.
  • Sensibilitate: analiza răspunsurilor modelului la întrebări cu conținut potențial „toxic”.
  • Raționament vizual: testarea aptitudinii modelului pentru rezolvarea problemelor care implică tipare vizuale, folosind benchmark-ul ARC. Participanții au trebuit să identifice modele într-un set de imagini și să le aplice pentru a rezolva un nou exemplu.

În domeniul matematicii, ambele GPT-4 versiunile, versiunile din martie și iunie, au arătat o acuratețe constantă în determinarea numerelor prime și compuse. Modelele au arătat competență în gestionarea acestor calcule, oferind rezultate fiabile.

Trecand la codificare, GPT-4 a prezentat o capacitate îmbunătățită de a genera cod semnificativ și funcțional în comparație cu predecesorii săi. Capacitățile de generare de cod ale modelului s-au arătat promițătoare, oferind potențiale beneficii pentru dezvoltatori și programatori.

În ceea ce privește sensibilitatea, studiul a evaluat răspunsurile modelelor la întrebări care conțin conținut potențial dăunător sau ofensator. GPT-4 a demonstrat o analiză îmbunătățită a sensibilității și a afișat o capacitate îmbunătățită de a oferi răspunsuri adecvate în astfel de contexte. Acest lucru înseamnă un pas pozitiv înainte în abordarea preocupărilor utilizatorilor cu privire la rezultate potențial problematice.

În cele din urmă, sarcinile de raționament vizual bazate pe benchmark-ul ARC au fost finalizate cu succes de ambii GPT-4 versiuni. Modelele au identificat în mod eficient modelele din seturile de imagini și au demonstrat capacitatea de a aplica aceste modele pentru a rezolva noi exemple. Acest lucru demonstrează capacitatea lor de înțelegere și raționament vizual.

Rezultatele indică faptul că GPT-4 a prezentat o scădere a preciziei, cu doar puțin peste 2% din răspunsurile corecte. Este important de menționat că acest test special evaluează în primul rând capacitatea modelului de a reaminti date, mai degrabă decât să-și arate abilitățile matematice inerente. Sarcina se învârte în jurul retragerii memoriei, deoarece modelului îi lipsește capacitatea de validare și deducere a calculelor, în special când vine vorba de numere prime.

ChatGPT a demonstrat o creștere substanțială a parametrilor de performanță până în iunie, prezentând o îmbunătățire remarcabilă de peste zece ori. Deși studiul nu a analizat factorii specifici care contribuie la această îmbunătățire, evidențiază ChatGPTprogresul lui în raționamentul matematic și capabilitățile de rezolvare a problemelor.

Studiul nu a evaluat calitatea sau corectitudinea codului generat. În schimb, modelele păreau să prezinte un comportament mai „personalizat”, oferind fragmente de cod fără a-și asigura acuratețea funcțională.
Legate de: Peste 10 cele mai bune instrumente de îmbunătățire a fotografiilor AI în 2023

Calitatea GPT-4 și ChatGPT a fost chestionat după o analiză a abilităților lor de programare. Cu toate acestea, o privire mai atentă dezvăluie câteva nuanțe fascinante care contrazic primele impresii.

Autorii nu au executat sau verificat codul pentru corectitudine; evaluarea lor sa bazat exclusiv pe validitatea sa ca cod Python. În plus, modelele păreau să fi învățat o tehnică specifică de încadrare a codului folosind un decorator, care a împiedicat neintenționat execuția codului.

Ca rezultat, devine evident că nici rezultatele, nici experimentul în sine nu pot fi considerate ca dovadă a degradării modelului. În schimb, modelele demonstrează o abordare diferită pentru generarea de răspunsuri, reflectând potențial variații în formarea lor.

O examinare a abilităților de programare și matematică ale GPT-4 și ChatGPT a făcut lumină asupra unor constatări interesante. Spre deosebire de ipotezele inițiale, modelele au demonstrat îmbunătățiri notabile în anumite domenii, în timp ce prezintă modificări comportamentale în altele.

Când vine vorba de sarcini de programare, ambele modele au arătat o scădere a răspunsului la solicitările „greșite”, cu GPT-4 manifestând o reducere de peste patru ori în astfel de cazuri. În plus, la sarcina de raționament vizual, calitatea răspunsurilor s-a îmbunătățit cu câteva puncte procentuale pentru ambele modele. Aceste observații indică mai degrabă un progres decât o degradare a performanței.

Cu toate acestea, evaluarea abilităților matematice introduce un element intrigant. Modelele au furnizat în mod constant numere prime ca răspunsuri, indicând un răspuns consistent „da”. Cu toate acestea, la introducerea numerelor compuse în eșantion, a devenit evident că modelele și-au schimbat comportamentul și au început să ofere răspunsuri „nu”, sugerând mai degrabă incertitudine decât o scădere a calității. Testul în sine este deosebit și unilateral, iar rezultatele sale pot fi atribuite schimbărilor în comportamentul modelului, mai degrabă decât unei scăderi a calității.

Este important să rețineți că versiunile API au fost testate, și nu versiunile bazate pe browser. Deși este posibil ca modelele din browser să fi suferit ajustări pentru optimizarea resurselor, studiul atașat nu defidemonstrează în mod clar această ipoteză. Impactul unor astfel de schimbări poate fi comparabil cu retrogradările reale ale modelului, ceea ce duce la potențiale provocări pentru utilizatorii care se bazează pe anumite activități. solicitări si experienta acumulata.

În cazul în care GPT-4 Aplicații API, aceste abateri de comportament pot avea consecințe tangibile. Codul care a fost dezvoltat pe baza nevoilor și sarcinilor unui anumit utilizator poate să nu mai funcționeze conform intenției dacă modelul suferă modificări în comportamentul său.

Se recomandă utilizatorilor să încorporeze practici similare de testare în fluxurile lor de lucru. Prin crearea unui set de solicitări, texte însoțitoare și rezultatele așteptate, utilizatorii pot verifica în mod regulat coerența dintre așteptările lor și răspunsurile modelului. De îndată ce sunt detectate orice abateri, pot fi luate măsuri adecvate pentru a remedia situația.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

De la Ripple la Big Green DAO: Cum contribuie proiectele de criptomonede la caritate

Să explorăm inițiativele care valorifică potențialul monedelor digitale pentru cauze caritabile.

Aflați mai multe

AlphaFold 3, Med-Gemini și alții: modul în care AI transformă asistența medicală în 2024

Inteligența artificială se manifestă în diferite moduri în asistența medicală, de la descoperirea de noi corelații genetice până la abilitarea sistemelor chirurgicale robotizate...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Crypto Exchange Jupiter va introduce Jupiter Swap V3, Dynamic Slippage, printre alte actualizări cheie în săptămânile următoare
pieţe Buletin de stiri Tehnologia
Crypto Exchange Jupiter va introduce Jupiter Swap V3, Dynamic Slippage, printre alte actualizări cheie în săptămânile următoare
14 Iunie, 2024
Polygon își lansează centrul de guvernare, oferind o interfață transparentă unificată pentru guvernarea comunității
Buletin de stiri Tehnologia
Polygon își lansează centrul de guvernare, oferind o interfață transparentă unificată pentru guvernarea comunității 
14 Iunie, 2024
Binance înregistrează peste 30 de milioane de utilizatori noi în 2024, activele clienților depășesc pragul de 100 de miliarde de dolari
pieţe Buletin de stiri Tehnologia
Binance înregistrează peste 30 de milioane de utilizatori noi în 2024, activele clienților depășesc pragul de 100 de miliarde de dolari
14 Iunie, 2024
Amazon sprijină startup-urile generative AI cu investiții de 230 de milioane de dolari, alocă 80 de milioane de dolari celui de-al doilea program AWS Generative AI Accelerator
Afaceri Buletin de stiri Tehnologia
Amazon sprijină startup-urile generative AI cu investiții de 230 de milioane de dolari, alocă 80 de milioane de dolari celui de-al doilea program AWS Generative AI Accelerator
14 Iunie, 2024
CRYPTOMERIA LABS PTE. LTD.