Opinie Tehnologia
August 23, 2023

Cercetătorii contestă noțiunea de „abilități emergente” ale modelelor de limbaj mari

Pe scurt

Apocalipsa AGI este o preocupare din cauza fenomenului modelelor de limbaj mari dintr-o dată demonstrarea abilităților pe care modelele mai mici nu par să aibă.

Acest fenomen se numește „abilități emergente ale modelelor de limbaj mari”.

Autorii articolului „Are abilitățile emergente ale modelelor lingvistice mari un miraj?” susțin că efectul abilităților emergente nu este un miraj, ci mai degrabă o creștere previzibilă a capacității de a îndeplini sarcini.

Ei arată că cel puțin 92% dintre problemele Big Bench nu au o descoperire bruscă pentru modelele mari, iar calitatea modelelor lor crește fără probleme și previzibil pe măsură ce dimensiunea modelelor crește.

Într-o examinare recentă a capabilităților potențiale ale modelelor de limbaj mari, cercetătorii contestă noțiunea de „abilități emergente” și aruncă lumină asupra unui aspect mai previzibil al funcționalității lor. Articolul intitulat „Dezvăluirea realităților abilităților emergente ale modelelor lingvistice mari” aduce în atenție interpretarea greșită a metricilor care a dus la concepția greșită că aceste modele dobândesc în mod spontan abilități avansate.

Cercetătorii contestă noțiunea de „abilități emergente” ale modelelor de limbaj mari
Credit: Metaverse Post / Stable Diffusion

Conceptul de "abilități emergente” în contextul unor modele de limbaj mari, precum cel GPT serie, a alimentat îngrijorările cu privire la potențialul acestor modele de a dezvolta capacități neprevăzute asemănătoare conștiinței umane. Această lucrare afirmă că aceste ipoteze s-au bazat pe o înțelegere greșită a comportamentului și capacităților reale ale modelelor.

Fenomenul observat în mod obișnuit, în care modelele mai mari dobândesc aparent abilități noi, cum ar fi raționamentul abstract, rezolvarea de probleme și chiar umorul, a fost inventat „abilitățile emergente ale modelelor de limbaj mari”. Autorii articolului susțin că aceste abilități nu sunt atât de spontane pe cât par, ci mai degrabă un rezultat al unor metrici de evaluare înșelătoare.

Pentru a-și ilustra punctul de vedere, cercetătorii iau în considerare sarcina de a „ghici ghicitoarea”, o problemă în care modelul de limbaj este necesar pentru a înțelege o ghicitoare a limbajului natural și a răspunde cu răspunsul corect în limbajul natural. În mod tradițional, calitatea răspunsurilor a fost evaluată folosind o metrică binară: unui răspuns i se atribuie un scor de 1 dacă se potrivește exact cu răspunsul corect, iar un scor de 0 în caz contrar.

Cheia problemei constă în sensibilitatea metricii la complexitatea sarcinii și numărul de parametri ai modelului. Cercetătorii dezvăluie că această metrică binară duce la a percepție înșelătoare a „abilităților emergente”. Modelele mai mici prezintă adesea o acuratețe neglijabilă (eps) pentru această măsurătoare, în timp ce modelele mai mari, în special cele cu un număr mare de parametri, par să atingă niveluri de precizie remarcabile (acc > 0.5).

Articolul susține că această schimbare aparentă a abilităților nu indică faptul că modelele dobândesc în mod spontan abilități complexe. În schimb, capacitatea modelelor de a înțelege și de a genera răspunsuri mai nuanțate provine dintr-o evaluare mai meticuloasă a rezultatelor lor. Concentrându-se pe potrivirea probabilistică și pe coerența semantică, mai degrabă decât pe potrivirile exacte ale șirurilor, cercetătorii arată că progresia modelelor în performanță urmează o traiectorie mai logică, indiferent de mărimea lor.

Legate de: Evoluția chatbot-urilor din epoca T9 și GPT-1 la ChatGPT

Investigarea evoluției performanței modelului cu modificarea parametrilor

Investigarea evoluției performanței modelului cu modificarea parametrilor
Credit: Metaverse Post / Stable Diffusion

Într-o investigație analitică, cercetătorii descoperă mecanica subtilă din spatele „abilităților emergente” percepute ale modele lingvistice mari. Studiul pune sub semnul întrebării influența valorilor superdiscrete în evaluarea performanței modelului și elucidează o înțelegere mai predictivă a capacităților acestora pe măsură ce parametrii modelului se extind.

Noțiunea predominantă de „abilități emergente” în modelele lingvistice expansive a captivat discuțiile și a ridicat îngrijorări cu privire la posibilele descoperiri. Acest studiu încearcă să dezlege mecanismele care stau la baza acestui fenomen și să descifreze dacă aceste modele prezintă într-adevăr capacități bruște, fără precedent sau dacă aceste progrese percepute pot fi atribuite unei cauze diferite.

În centrul studiului se află o evaluare meticuloasă a parametrilor utilizați pentru a măsura performanța modelului. Cercetătorii susțin că utilizarea unor metrici superdiscrete, în special a metricii binare convenționale care determină potrivirile exacte ale șirurilor, ar putea distorsiona interpretarea valorilor mari. abilități de model lingvistic. Studiul analizează meticulos modul în care distribuția probabilității răspunsurilor generate de model evoluează pe măsură ce parametrii modelului sunt scalați.

Spre deosebire de noțiunea de „abilități emergente”, studiul relevă o tendință mai sistematică. Pe măsură ce dimensiunea modelului crește, capacitatea acestuia de a atribui probabilități mai mari răspunsurilor adecvate și probabilități mai mici celor incorecte se îmbunătățește. Acest lucru reflectă o îmbunătățire consecventă a capacității modelului de a rezolva problemele în mod abil pe o gamă largă de dimensiuni. În esență, cercetarea sugerează că procesul de învățare al modelelor urmează undefiNecesită traiectorie de îmbunătățire mai degrabă decât un salt brusc.

Autorii introduc o schimbare de paradigmă propunând înlocuirea metricilor discrete cu unele continue. Această schimbare oferă o imagine mai clară a evoluției performanței. Prin analiza lor, cercetătorii constată că aproximativ 92% din Probleme cu Big Bench prezintă o creștere lină și previzibilă a calității pe măsură ce dimensiunea modelului se extinde. Această descoperire provoacă ideea că modelele mai mari experimentează descoperiri bruște și, în schimb, evidențiază o progresie mai graduală și anticipată.

Studiul își extinde perspectivele pentru a-și valida afirmațiile. Demonstrează că același efect de „capacitate emergentă” poate fi simulat artificial utilizând autoencodere convenționale, sugerând că alegerea parametrilor influențează semnificativ rezultatele percepute. Această revelație lărgește sfera implicațiilor studiului, demonstrând relevanța sa dincolo de modelele lingvistice.

Cercetătorii subliniază că rezultatele lor nu definega în mod nitiv potențialul de „abilități emergente” sau conștiință în modelele mari de limbaj. Cu toate acestea, descoperirile lor încurajează cercetătorii să abordeze astfel de afirmații cu o perspectivă nuanțată. În loc să extrapoleze în grabă și să formeze concluzii extreme, studiul subliniază importanța unei investigații meticuloase și a unei analize cuprinzătoare.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
BLOCKCHANCE și CONF3RENCE se unesc pentru cel mai mare din Germania Web3 Conferință la Dortmund
Afaceri pieţe Software Povești și recenzii Tehnologia
BLOCKCHANCE și CONF3RENCE se unesc pentru cel mai mare din Germania Web3 Conferință la Dortmund
9 Mai, 2024
NuLink se lansează pe Bybit Web3 Platforma IDO. Faza de abonament se prelungește până pe 13 mai
pieţe Buletin de stiri Tehnologia
NuLink se lansează pe Bybit Web3 Platforma IDO. Faza de abonament se prelungește până pe 13 mai
9 Mai, 2024
UXLINK și Binance colaborează la o nouă campanie, oferind utilizatorilor 20 de milioane de puncte UXUY și Airdrop Recompense
pieţe Buletin de stiri Tehnologia
UXLINK și Binance colaborează la o nouă campanie, oferind utilizatorilor 20 de milioane de puncte UXUY și Airdrop Recompense
9 Mai, 2024
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
pieţe Buletin de stiri Tehnologia
Side Protocol lansează Testnet stimulat și introduce sistemul de puncte Insider, permițând utilizatorilor să câștige puncte SIDE
9 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.