Cercetătorii contestă noțiunea de „abilități emergente” ale modelelor de limbaj mari
Pe scurt
Apocalipsa AGI este o preocupare din cauza fenomenului modelelor de limbaj mari dintr-o dată demonstrarea abilităților pe care modelele mai mici nu par să aibă.
Acest fenomen se numește „abilități emergente ale modelelor de limbaj mari”.
Autorii articolului „Are abilitățile emergente ale modelelor lingvistice mari un miraj?” susțin că efectul abilităților emergente nu este un miraj, ci mai degrabă o creștere previzibilă a capacității de a îndeplini sarcini.
Ei arată că cel puțin 92% dintre problemele Big Bench nu au o descoperire bruscă pentru modelele mari, iar calitatea modelelor lor crește fără probleme și previzibil pe măsură ce dimensiunea modelelor crește.
Într-o examinare recentă a capabilităților potențiale ale modelelor de limbaj mari, cercetătorii contestă noțiunea de „abilități emergente” și aruncă lumină asupra unui aspect mai previzibil al funcționalității lor. Articolul intitulat „Dezvăluirea realităților abilităților emergente ale modelelor lingvistice mari” aduce în atenție interpretarea greșită a metricilor care a dus la concepția greșită că aceste modele dobândesc în mod spontan abilități avansate.
Conceptul de "abilități emergente” în contextul unor modele de limbaj mari, precum cel GPT serie, a alimentat îngrijorările cu privire la potențialul acestor modele de a dezvolta capacități neprevăzute asemănătoare conștiinței umane. Această lucrare afirmă că aceste ipoteze s-au bazat pe o înțelegere greșită a comportamentului și capacităților reale ale modelelor.
Fenomenul observat în mod obișnuit, în care modelele mai mari dobândesc aparent abilități noi, cum ar fi raționamentul abstract, rezolvarea de probleme și chiar umorul, a fost inventat „abilitățile emergente ale modelelor de limbaj mari”. Autorii articolului susțin că aceste abilități nu sunt atât de spontane pe cât par, ci mai degrabă un rezultat al unor metrici de evaluare înșelătoare.
Pentru a-și ilustra punctul de vedere, cercetătorii iau în considerare sarcina de a „ghici ghicitoarea”, o problemă în care modelul de limbaj este necesar pentru a înțelege o ghicitoare a limbajului natural și a răspunde cu răspunsul corect în limbajul natural. În mod tradițional, calitatea răspunsurilor a fost evaluată folosind o metrică binară: unui răspuns i se atribuie un scor de 1 dacă se potrivește exact cu răspunsul corect, iar un scor de 0 în caz contrar.
Cheia problemei constă în sensibilitatea metricii la complexitatea sarcinii și numărul de parametri ai modelului. Cercetătorii dezvăluie că această metrică binară duce la a percepție înșelătoare a „abilităților emergente”. Modelele mai mici prezintă adesea o acuratețe neglijabilă (eps) pentru această măsurătoare, în timp ce modelele mai mari, în special cele cu un număr mare de parametri, par să atingă niveluri de precizie remarcabile (acc > 0.5).
Articolul susține că această schimbare aparentă a abilităților nu indică faptul că modelele dobândesc în mod spontan abilități complexe. În schimb, capacitatea modelelor de a înțelege și de a genera răspunsuri mai nuanțate provine dintr-o evaluare mai meticuloasă a rezultatelor lor. Concentrându-se pe potrivirea probabilistică și pe coerența semantică, mai degrabă decât pe potrivirile exacte ale șirurilor, cercetătorii arată că progresia modelelor în performanță urmează o traiectorie mai logică, indiferent de mărimea lor.
Investigarea evoluției performanței modelului cu modificarea parametrilor
Într-o investigație analitică, cercetătorii descoperă mecanica subtilă din spatele „abilităților emergente” percepute ale modele lingvistice mari. Studiul pune sub semnul întrebării influența valorilor superdiscrete în evaluarea performanței modelului și elucidează o înțelegere mai predictivă a capacităților acestora pe măsură ce parametrii modelului se extind.
Noțiunea predominantă de „abilități emergente” în modelele lingvistice expansive a captivat discuțiile și a ridicat îngrijorări cu privire la posibilele descoperiri. Acest studiu încearcă să dezlege mecanismele care stau la baza acestui fenomen și să descifreze dacă aceste modele prezintă într-adevăr capacități bruște, fără precedent sau dacă aceste progrese percepute pot fi atribuite unei cauze diferite.
În centrul studiului se află o evaluare meticuloasă a parametrilor utilizați pentru a măsura performanța modelului. Cercetătorii susțin că utilizarea unor metrici superdiscrete, în special a metricii binare convenționale care determină potrivirile exacte ale șirurilor, ar putea distorsiona interpretarea valorilor mari. abilități de model lingvistic. Studiul analizează meticulos modul în care distribuția probabilității răspunsurilor generate de model evoluează pe măsură ce parametrii modelului sunt scalați.
Spre deosebire de noțiunea de „abilități emergente”, studiul relevă o tendință mai sistematică. Pe măsură ce dimensiunea modelului crește, capacitatea acestuia de a atribui probabilități mai mari răspunsurilor adecvate și probabilități mai mici celor incorecte se îmbunătățește. Acest lucru reflectă o îmbunătățire consecventă a capacității modelului de a rezolva problemele în mod abil pe o gamă largă de dimensiuni. În esență, cercetarea sugerează că procesul de învățare al modelelor urmează undefiNecesită traiectorie de îmbunătățire mai degrabă decât un salt brusc.
Autorii introduc o schimbare de paradigmă propunând înlocuirea metricilor discrete cu unele continue. Această schimbare oferă o imagine mai clară a evoluției performanței. Prin analiza lor, cercetătorii constată că aproximativ 92% din Probleme cu Big Bench prezintă o creștere lină și previzibilă a calității pe măsură ce dimensiunea modelului se extinde. Această descoperire provoacă ideea că modelele mai mari experimentează descoperiri bruște și, în schimb, evidențiază o progresie mai graduală și anticipată.
Studiul își extinde perspectivele pentru a-și valida afirmațiile. Demonstrează că același efect de „capacitate emergentă” poate fi simulat artificial utilizând autoencodere convenționale, sugerând că alegerea parametrilor influențează semnificativ rezultatele percepute. Această revelație lărgește sfera implicațiilor studiului, demonstrând relevanța sa dincolo de modelele lingvistice.
Cercetătorii subliniază că rezultatele lor nu definega în mod nitiv potențialul de „abilități emergente” sau conștiință în modelele mari de limbaj. Cu toate acestea, descoperirile lor încurajează cercetătorii să abordeze astfel de afirmații cu o perspectivă nuanțată. În loc să extrapoleze în grabă și să formeze concluzii extreme, studiul subliniază importanța unei investigații meticuloase și a unei analize cuprinzătoare.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.