Buletin de stiri Tehnologia
Martie 15, 2023

GPT-4 surclasează GPT-3.5 La nivel general pe o varietate de repere de studiu

Pe scurt

GPT-4 a atins un prag de grad mai mare decât cel GPT-3.5 pe o varietate de repere.

Aceasta este o realizare majoră, deoarece arată că mașinile nu sunt doar capabile de inteligență asemănătoare omului, ci ne pot depăși, ceea ce ridică întrebări cu privire la viitorul AI și impactul potențial al acesteia asupra pieței muncii.

GPT-4 este semnificativ depășit de modelele de ultimă generație (SOTA), inclusiv de cele care utilizează protocoale de antrenament suplimentare sau de design specific benchmark-ului, precum și de modelele mari de limbaj existente.

GPT-4 a obținut scoruri mai mari decât cel GPT-3.5 pe o varietate de repere. Aceasta este o descoperire majoră pentru mașini, deoarece demonstrează că acum nu numai că pot rezolva probleme pentru care au fost concepute inițial, ci pot face acest lucru mai bine decât studenții universitari.

GPT-4 surclasează GPT-3.5 în general pe o varietate de repere de studiu

Există câteva lucruri de luat în considerare atunci când vă uitați la acest rezultat. În primul rând, GPT-4 nu a primit nicio pregătire specifică pentru aceste examene. S-a procedat utilizând cele mai recente teste disponibile public (în cazul olimpiadelor și întrebărilor cu răspuns gratuit AP) sau prin achiziționarea edițiilor 2022-2023 ale examenelor practice. În al doilea rând, este important de reținut că GPT-4Este posibil ca performanța lui să nu reflecte neapărat abilitățile persoanelor care iau testul uman, deoarece funcționează pe un set diferit de principii și algoritmi.

Aceasta este o realizare majoră ca se vede că mașinile nu numai că sunt capabile de inteligență asemănătoare omului, ci ne pot depăși și pe noi. Acest lucru deschide calea către un viitor în care mașinile pot prelua sarcini din ce în ce mai complexe, conducând în cele din urmă la un viitor în care ne pot ajuta în viața de zi cu zi.

GPT-4capacitatea lui de a depăși oamenii în anumite sarcini ridică întrebări cu privire la viitorul inteligență artificială și impactul potențial al acestuia asupra pieței muncii. De asemenea, subliniază necesitatea cercetării și dezvoltării continue în acest domeniu pentru a se asigura că IA este utilizată în mod etic și responsabil.
Citeşte mai mult: Cele mai anticipate 5 modele AI text-to-image din 2023

GPT-4, de exemplu, promovează un examen simulat de bară cu un scor în primii 10% dintre cei care susțin testul; GPT-3Scorul lui .5 a fost în ultimele 10%. Această îmbunătățire semnificativă în GPT-4Performanța lui se datorează datelor sale de antrenament mai mari și arhitecturii îmbunătățite. Se așteaptă să aibă o gamă largă de aplicații în diverse domenii, inclusiv procesarea limbajului natural și scrierea automată.

 
GPT-4 prezintă performanțe la nivel uman la majoritatea acestor examene profesionale și academice. În mod remarcabil, a trecut o versiune simulată a examenului Baroului uniform, cu un scor în primii 10% dintre cei care iau testul. Capacitățile modelului la examene par să provină în principal din procesul de pre-formare și nu sunt afectate semnificativ de RLHF. La întrebările cu răspunsuri multiple, atât de bază GPT-4 modelul și modelul RLHF au avut rezultate la fel de bune în medie între dezvoltatorii examenului testat.

Majoritatea modelelor de ultimă generație (SOTA), inclusiv cele care pot utiliza protocoale de antrenament suplimentare sau design specific pentru repere, precum și modelele mari existente. modele de limbaj, sunt semnificativ depășiți de GPT-4.

GPT-4performanța lui în ceea ce privește standardele academice. Dezvoltatorii contrastează GPT-4 cu cel mai bun SOTA pentru o lovitură mică evaluată de LM, precum și cel mai bun SOTA cu pregătire specifică benchmark-ului. Cu excepția DROP, GPT-4 depășește toate LM actuale la toate benchmark-urile și SOTA cu pregătire specifică benchmark-ului.

Pe plan intern, dezvoltatorii au folosit GPT-4, care a avut un impact semnificativ asupra activităților precum programarea, vânzările, asistența și moderarea conținutului. A doua etapă a metodei noastre de aliniere este acum în curs de desfășurare, deoarece dezvoltatorii o folosesc pentru a ajuta oamenii să revizuiască rezultatele AI.

Setul de date MMLU (Massive Multi-Task Language Understanding) conține întrebări dintr-o gamă foarte largă de subiecte privind înțelegerea limbajului în diferite sarcini (acoperind 57 de domenii, inclusiv matematică, biologie, drept, științe sociale și umane etc.). Există patru răspunsuri posibile la întrebare, dintre care unul este corect. Adică, ghicitul aleatoriu arată un rezultat de 25% răspunsuri corecte. Vedeți imaginea de mai jos pentru exemple de întrebări și dificultățile acestora. O persoană-marker obișnuit (adică acesta nu este un om de știință, nu un profesor - o persoană obișnuită care se adaugă la lumina lunii ca marcaj) răspunde corect la 35% dintre întrebări; totuși, experții pot ajunge la un scor de +/- 90%.

Performanța GPT-4 într-o serie de limbi în comparație cu modelele anterioare în limba engleză pe MMLU. GPT-4 depășește performanța în limba engleză a modelelor lingvistice existente pentru marea majoritate a limbilor examinate, inclusiv limbi cu resurse reduse, cum ar fi letona, galeza și swahili.
Citeşte mai mult: 5 motive pentru a folosi AI-powered Bing peste Google

Inițial, întregul set de date era în limba engleză. Dar ce se întâmplă dacă întrebările și răspunsurile sunt traduse în alte limbi, în special în cele mai puțin obișnuite? Va funcționa cumva modelul pentru ei? În acest test, serviciul Microsoft Azure Translate a fost folosit pentru traducere. Traducerile nu sunt perfecte; în unele cazuri, informații importante se pierd. Cu toate acestea, chiar și în acest caz, GPT-4 se descurcă bine în alte limbi. În versiunile traduse ale MMLU, GPT-4 depășește nivelul de engleză al altor modele mari (inclusiv Google) cu 24 din cele 26 de limbi examinate.

Mai mult, GPT-4 performează mai bine în limbi rare decât ChatGPT făcut în engleză (ChatGPT a obținut un scor de 70.1%, în timp ce scorul noului model pentru thailandez a fost de 71.8%). Scorul la testul în limba engleză a fost cel mai mare, cu GPT-4 performanțe cu 10% mai bune decât alte modele, inclusiv cel mai mare PaLM de la Google. A obținut un scor de 86.4%, în timp ce un grup de experți — 90%.

  • Până în vara lui 2023, AI ar fi putut atinge un nou nivel de putere datorită ChatGPT, un chatbot care folosește GPT-4 algoritm și surclasează GPT-3 cu un factor de 570. La care contribuie o varietate de elemente ChatGPTSuccesul lui, inclusiv designul său pentru a fi mai „asemănător omului” și utilizarea de ultimă oră a extragerii de date și a procesării limbajului natural pentru a-i crește eficacitatea și acuratețea.
  • Microsoft și OpenAI și-au anunțat reînnoirea colaborării și planurile ca Bing Search să adopte capabilități de căutare îmbunătățite de AI în ianuarie. Cel foarte sofisticat GPTÎnlocuirea modelului 3.5, GPT4, tocmai a fost lansat, și are potențialul de a îmbunătăți considerabil capacitatea căutării Bing de a înțelege interogări în limbaj natural și de a oferi rezultate mai precise. Este o idee bună să aveți un plan de rezervă bun în cazul în care ceva nu merge bine.

Citiți mai multe știri legate:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
Afaceri Buletin de stiri Tehnologia
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
3 Mai, 2024
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
pieţe Buletin de stiri Tehnologia
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
3 Mai, 2024
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
pieţe Buletin de stiri Tehnologia
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
3 Mai, 2024
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
Afaceri Buletin de stiri Tehnologia
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
3 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.