Studiul lui Stanford confirmă GPT-4 Devine prost
Pe scurt
Un studiu realizat de Matei Zaharia și echipa sa de la Stanford și UC Berkeley a comparat performanța lui GPT-4 și ChatGPT pentru a răspunde preocupărilor utilizatorilor cu privire la eficacitatea modelului.
Studiul a evaluat modelele pe patru sarcini specifice: matematică, codificare, sensibilitate și raționament vizual.
Matei Zaharia și echipa sa din Stanford și UC Berkeley a efectuat un studiu care a comparat performanța de GPT-4 la ChatGPT. Această investigație a încercat să abordeze preocupările utilizatorilor că eficiența modelului s-a diminuat.
Cercetătorii au conceput studiul pentru a evalua modelele pe patru sarcini specifice. Aceste sarcini au inclus:
- Matematică: capacitatea modelului de a determina dacă un anumit număr este prim sau compus.
- Codificare: Evaluarea capacității modelului de a genera cod semnificativ și funcțional.
- Sensibilitate: analiza răspunsurilor modelului la întrebări cu conținut potențial „toxic”.
- Raționament vizual: testarea aptitudinii modelului pentru rezolvarea problemelor care implică tipare vizuale, folosind benchmark-ul ARC. Participanții au trebuit să identifice modele într-un set de imagini și să le aplice pentru a rezolva un nou exemplu.
În domeniul matematicii, ambele GPT-4 versiunile, versiunile din martie și iunie, au arătat o acuratețe constantă în determinarea numerelor prime și compuse. Modelele au arătat competență în gestionarea acestor calcule, oferind rezultate fiabile.
Trecand la codificare, GPT-4 a prezentat o capacitate îmbunătățită de a genera cod semnificativ și funcțional în comparație cu predecesorii săi. Capacitățile de generare de cod ale modelului s-au arătat promițătoare, oferind potențiale beneficii pentru dezvoltatori și programatori.
În ceea ce privește sensibilitatea, studiul a evaluat răspunsurile modelelor la întrebări care conțin conținut potențial dăunător sau ofensator. GPT-4 a demonstrat o analiză îmbunătățită a sensibilității și a afișat o capacitate îmbunătățită de a oferi răspunsuri adecvate în astfel de contexte. Acest lucru înseamnă un pas pozitiv înainte în abordarea preocupărilor utilizatorilor cu privire la rezultate potențial problematice.
În cele din urmă, sarcinile de raționament vizual bazate pe benchmark-ul ARC au fost finalizate cu succes de ambii GPT-4 versiuni. Modelele au identificat în mod eficient modelele din seturile de imagini și au demonstrat capacitatea de a aplica aceste modele pentru a rezolva noi exemple. Acest lucru demonstrează capacitatea lor de înțelegere și raționament vizual.
ChatGPT a demonstrat o creștere substanțială a parametrilor de performanță până în iunie, prezentând o îmbunătățire remarcabilă de peste zece ori. Deși studiul nu a analizat factorii specifici care contribuie la această îmbunătățire, evidențiază ChatGPTprogresul lui în raționamentul matematic și capabilitățile de rezolvare a problemelor.
Calitatea GPT-4 și ChatGPT a fost chestionat după o analiză a abilităților lor de programare. Cu toate acestea, o privire mai atentă dezvăluie câteva nuanțe fascinante care contrazic primele impresii.
Autorii nu au executat sau verificat codul pentru corectitudine; evaluarea lor sa bazat exclusiv pe validitatea sa ca cod Python. În plus, modelele păreau să fi învățat o tehnică specifică de încadrare a codului folosind un decorator, care a împiedicat neintenționat execuția codului.
Ca rezultat, devine evident că nici rezultatele, nici experimentul în sine nu pot fi considerate ca dovadă a degradării modelului. În schimb, modelele demonstrează o abordare diferită pentru generarea de răspunsuri, reflectând potențial variații în formarea lor.
Când vine vorba de sarcini de programare, ambele modele au arătat o scădere a răspunsului la solicitările „greșite”, cu GPT-4 manifestând o reducere de peste patru ori în astfel de cazuri. În plus, la sarcina de raționament vizual, calitatea răspunsurilor s-a îmbunătățit cu câteva puncte procentuale pentru ambele modele. Aceste observații indică mai degrabă un progres decât o degradare a performanței.
Cu toate acestea, evaluarea abilităților matematice introduce un element intrigant. Modelele au furnizat în mod constant numere prime ca răspunsuri, indicând un răspuns consistent „da”. Cu toate acestea, la introducerea numerelor compuse în eșantion, a devenit evident că modelele și-au schimbat comportamentul și au început să ofere răspunsuri „nu”, sugerând mai degrabă incertitudine decât o scădere a calității. Testul în sine este deosebit și unilateral, iar rezultatele sale pot fi atribuite schimbărilor în comportamentul modelului, mai degrabă decât unei scăderi a calității.
Este important să rețineți că versiunile API au fost testate, și nu versiunile bazate pe browser. Deși este posibil ca modelele din browser să fi suferit ajustări pentru optimizarea resurselor, studiul atașat nu defidemonstrează în mod clar această ipoteză. Impactul unor astfel de schimbări poate fi comparabil cu retrogradările reale ale modelului, ceea ce duce la potențiale provocări pentru utilizatorii care se bazează pe anumite activități. solicitări si experienta acumulata.
În cazul în care GPT-4 Aplicații API, aceste abateri de comportament pot avea consecințe tangibile. Codul care a fost dezvoltat pe baza nevoilor și sarcinilor unui anumit utilizator poate să nu mai funcționeze conform intenției dacă modelul suferă modificări în comportamentul său.
Se recomandă utilizatorilor să încorporeze practici similare de testare în fluxurile lor de lucru. Prin crearea unui set de solicitări, texte însoțitoare și rezultatele așteptate, utilizatorii pot verifica în mod regulat coerența dintre așteptările lor și răspunsurile modelului. De îndată ce sunt detectate orice abateri, pot fi luate măsuri adecvate pentru a remedia situația.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.