8 lucruri pe care ar trebui să le știți despre modelele lingvistice mari
Pe scurt
Modele de limbaj mari (LLM-uri) sunt folosite pentru a explora nuanțele limbajului natural, pentru a îmbunătăți capacitatea mașinilor de a înțelege și genera text și pentru a automatiza sarcini precum recunoașterea vocii și traducerea automată.
Nu există o soluție ușoară pentru gestionarea LLM-urilor, dar aceștia sunt la fel de capabili ca oamenii.
Odată cu creșterea dezvoltării procesării limbajului natural și a utilizării acesteia în afaceri, există un interes din ce în ce mai mare pentru modelele de limbaj mari. Aceste modele sunt folosite pentru a explora nuanțele limbajului natural, pentru a îmbunătăți capacitatea mașinilor de a înțelege și genera text și pentru a automatiza sarcini precum recunoașterea vocii și traducerea automată. Iată opt lucruri esențiale pe care ar trebui să le cunoașteți despre modelele lingvistice mari (LLM).
- LLM-urile sunt mai „capabile” pe măsură ce costurile continuă să crească
- O privire rapidă la cum GPT modelele se adaptează pe măsură ce costurile de formare cresc
- LLM învață să joace jocuri de societate utilizând reprezentări ale lumii exterioare
- Nu există o soluție ușoară pentru gestionarea LLM
- Experții au probleme în a explica cum funcționează LLM
- LLM-urile sunt la fel de capabile ca și oamenii
- LLM-urile trebuie să fie mai mult decât un simplu „jock-of-all-trades”
- Modelele sunt „mai inteligente” decât cred oamenii pe baza primelor impresii
LLM-urile sunt mai „capabile” pe măsură ce costurile continuă să crească
LLM-urile devin probabil mai „capabile” cu costuri în creștere, chiar și fără inovații interesante. Principalul lucru aici este predictibilitatea, care a fost arătat în articolul despre GPT-4: s-au predat cinci până la șapte modele mici cu un buget de 0.1% din cel final, iar apoi s-a făcut o predicție pentru un model uriaș bazat pe acesta. Pentru o evaluare generală a perplexității și a parametrilor pe un subeșantion al unei sarcini specifice, o astfel de predicție a fost foarte precisă. Această predictibilitate este importantă pentru companiile și organizațiile care se bazează pe LLM-uri pentru operațiunile lor, deoarece pot bugeta în consecință și pot planifica cheltuielile viitoare. Cu toate acestea, este important de menționat că, în timp ce creșterea costurilor poate duce la îmbunătățirea capacităților, rata de îmbunătățire poate în cele din urmă să se stabilească, ceea ce face necesar să se investească în noi inovații pentru a continua să avanseze.
O privire rapidă la cum GPT modelele se adaptează pe măsură ce costurile de formare cresc
Cu toate acestea, abilitățile importante specifice tind să apară în mod imprevizibil ca un produs secundar al creșterii costuri de formare (antrenament mai lung, mai multe date, model mai mare) - este aproape imposibil de prezis când modelele vor începe să îndeplinească anumite sarcini. Am explorat subiectul mai în profunzime în documentul nostru articol despre istoria dezvoltării GPT modele. Imaginea arată distribuția creșterii calității modelelor în diferite sarcini. Doar modelele mari pot învăța să facă diverse sarcini. Acest grafic evidențiază impactul semnificativ al creșterii dimensiunii GPT Modele asupra performanței lor în diferite sarcini. Cu toate acestea, este important de reținut că acest lucru vine cu prețul resurselor de calcul crescute și al impactului asupra mediului.
LLM învață să joace jocuri de societate utilizând reprezentări ale lumii exterioare
LLM-urile învață și folosesc adesea reprezentări ale lumii exterioare. Există multe exemple aici și iată unul dintre ele: Modele instruite pentru a juca jocuri de societate bazate pe descrieri ale mișcărilor individuale, fără a vedea vreodată o imagine a terenului de joc, învață reprezentări interne ale stării tablei la fiecare mișcare. Aceste reprezentări interne pot fi apoi folosite pentru prezice viitorul mișcări și rezultate, permițând modelului să joace jocul la un nivel înalt. Această capacitate de a învăța și de a folosi reprezentări este o cheie aspect al învățării automate și inteligență artificială.
Nu există o soluție ușoară pentru gestionarea LLM
Nu există metode fiabile pentru a controla comportamentul LLM. Deși s-au înregistrat unele progrese în înțelegerea și atenuarea diferitelor probleme (inclusiv ChatGPT și GPT-4 cu ajutorul feedback-ului), nu există un consens dacă le putem rezolva. Există o îngrijorare tot mai mare că aceasta va deveni o problemă uriașă, potențial catastrofală în viitor, atunci când vor fi create sisteme și mai mari. Prin urmare, cercetătorii explorează noi metode pentru a se asigura că sistemele AI se aliniază cu valorile și obiectivele umane, cum ar fi alinierea valorilor și ingineria recompenselor. Cu toate acestea, rămâne o sarcină dificilă garantarea siguranța și fiabilitatea LLM-urilor în scenarii complexe din lumea reală.
Citeşte mai mult: OpenAI Reunește o echipă de peste 50 de experți pentru a îmbunătăți GPT-4Siguranța lui |
Experții au probleme în a explica cum funcționează LLM
Experții nu pot interpreta încă funcționarea interioară a LLM. Nicio tehnică nu ne-ar permite să afirmăm într-un mod satisfăcător ce fel de cunoștințe, raționament sau obiective folosește modelul atunci când generează vreun rezultat. Această lipsă de interpretabilitate ridică îngrijorări cu privire la fiabilitatea și corectitudinea deciziilor LLM, în special în aplicațiile cu mize mari, cum ar fi justiția penală sau scoring credit. De asemenea, evidențiază necesitatea unor cercetări suplimentare privind dezvoltarea unor modele de IA mai transparente și mai responsabile.
LLM-urile sunt la fel de capabile ca și oamenii
Deși LLM-urile sunt instruite în primul rând pentru imita comportamentul uman atunci când scrii text, au potențialul de a ne depăși în multe sarcini. Acest lucru poate fi deja văzut când joci șah sau Go. Acest lucru se datorează capacității lor de a analiza cantități mari de date și de a lua decizii pe baza acelei analize la o viteză pe care oamenii nu o pot egala. Cu toate acestea, LLM-urilor încă le lipsește creativitatea și intuiția pe care oamenii le posedă, ceea ce le face mai puțin potrivite pentru multe sarcini.
Citeşte mai mult: OpenAI Reunește o echipă de peste 50 de experți pentru a îmbunătăți GPT-4Siguranța lui |
LLM-urile trebuie să fie mai mult decât un simplu „jock-of-all-trades”
LLM-urile nu trebuie să exprime valorile creatorilor lor sau valorile codificate într-o selecție de pe Internet. Ei nu trebuie să repete stereotipuri sau teorii ale conspirației sau să încerce să jignească pe nimeni. În schimb, LLM-urile ar trebui să fie concepute pentru a oferi utilizatorilor informații imparțiale și concrete, respectând în același timp diferențele culturale și societale. În plus, ar trebui să fie supuși unor teste și monitorizări regulate pentru a se asigura că continuă să îndeplinească aceste standarde.
Modelele sunt „mai inteligente” decât cred oamenii pe baza primelor impresii
Estimările abilității unui model bazate pe primele impresii sunt adesea înșelătoare. Foarte des, trebuie să veniți cu solicitarea potrivită, să sugerați un model și poate să arătați exemple și va începe să se descurce mult mai bine. Adică este „mai inteligent” decât pare la prima vedere. Prin urmare, este esențial să îi oferim modelului o șansă corectă și să îi oferim resursele necesare pentru a performa cel mai bine. Cu abordarea corectă, chiar și modelele aparent inadecvate ne pot surprinde cu capacitățile lor.
Dacă ne concentrăm pe un eșantion de 202 sarcini din setul de date BIG-Bench (a fost în mod special dificil de testat modele de limbaj de la și la), apoi, de regulă (în medie), modelele arată o creștere a calității cu o scară în creștere, dar individual, metricile în sarcini pot:
- imbunatateste treptat,
- se imbunatatesc drastic,
- ramane neschimbat,
- scădea,
- nu prezintă nicio corelație.
Toate acestea duc la imposibilitatea extrapolării cu încredere a performanței oricărui sistem viitor. Partea verde este deosebit de interesantă - exact aici indicatorii de calitate cresc brusc fără niciun motiv.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.