12 Iunie, 2023

Cele mai bune 30 de modele de transformatoare în IA: ce sunt și cum funcționează

Publicat: 12 iunie 2023 la 6:52 Actualizat: 12 iunie 2023 la 6:52

Editat și verificat: 12 iunie 2023 la 6:52

În ultimele luni, în AI au apărut numeroase modele Transformer, fiecare cu nume unice și uneori amuzante. Cu toate acestea, este posibil ca aceste nume să nu ofere prea multe informații despre ceea ce fac de fapt aceste modele. Acest articol își propune să ofere o listă cuprinzătoare și simplă a celor mai populare modele Transformer. Acesta va clasifica aceste modele și, de asemenea, va introduce aspecte și inovații importante în cadrul familiei Transformer. Lista de sus va acoperi modele instruite prin învățare autosupravegheată, cum ar fi BERT sau GPT-3, precum și modele care urmează un antrenament suplimentar cu implicare umană, cum ar fi InstructGPT model utilizat de ChatGPT.

Pro Sfaturi
Acest ghid este conceput pentru a oferi cunoștințe cuprinzătoare și abilități practice în inginerie promptă pentru începători până la cei avansați.
Sunt multe cursuri disponibil pentru persoanele care doresc să afle mai multe despre AI și tehnologiile asociate acesteia.
Aruncați o privire la top 10+ acceleratoare AI care se așteaptă să conducă piața în ceea ce privește performanța.

Cuprins

Ce sunt Transformers în AI?
Ce sunt codificatoarele și decodificatoarele în AI?
Ce sunt straturile de atenție în AI?
Ce sunt modelele reglate fin în AI?
De ce sunt Transformers viitorul AI?
3 tipuri de arhitecturi de preformare
8 tipuri de sarcini pentru modele pre-antrenate
Top 30+ de transformatoare în AI
Întrebări frecvente

Ce sunt Transformers în AI?

Transformatoarele sunt un tip de modele de învățare profundă care au fost introduse într-o lucrare de cercetare numită „Atenția este tot ce ai nevoie” de cercetătorii Google în 2017. Această lucrare a câștigat o recunoaștere imensă, acumulând peste 38,000 de citări în doar cinci ani.

Arhitectura originală Transformer este o formă specifică de modele de codificator-decodor care câștigase popularitate înainte de introducerea sa. Pe aceste modele s-au bazat predominant LSTM și alte variante ale rețelelor neuronale recurente (RNN-uri), atenția fiind doar unul dintre mecanismele utilizate. Cu toate acestea, lucrarea Transformer a propus o idee revoluționară conform căreia atenția ar putea servi ca unic mecanism pentru a stabili dependențe între intrare și ieșire.

Ce sunt Transformers în AI? — Credit: dominodatalab.com

În contextul Transformers, intrarea constă dintr-o secvență de jetoane, care pot fi cuvinte sau subcuvinte în procesarea limbajului natural (PNL). Subcuvintele sunt utilizate în mod obișnuit în modelele NLP pentru a aborda problema cuvintelor în afara vocabularului. Ieșirea codificatorului produce o reprezentare dimensională fixă pentru fiecare jeton, împreună cu o încorporare separată pentru întreaga secvență. Decodorul preia ieșirea codificatorului și generează o secvență de jetoane ca ieșire.

De la publicarea lucrării Transformer, modele populare ca OARET și GPT au adoptat aspecte ale arhitecturii originale, fie folosind componentele codificatorului, fie ale decodorului. Asemănarea cheie între aceste modele constă în arhitectura stratului, care încorporează mecanisme de auto-atenție și straturi de feed-forward. În Transformers, fiecare jeton de intrare parcurge propriul său drum prin straturi, menținând în același timp dependențe directe cu fiecare alt jeton din secvența de intrare. Această caracteristică unică permite calcularea paralelă și eficientă a reprezentărilor token-urilor contextuale, o capacitate care nu este fezabilă cu modele secvențiale precum RNN-urile.

În timp ce acest articol doar zgârie suprafața arhitecturii Transformer, oferă o privire asupra aspectelor sale fundamentale. Pentru o înțelegere mai cuprinzătoare, vă recomandăm să consultați lucrarea originală de cercetare sau postarea The Illustrated Transformer.

Ce sunt codificatoarele și decodificatoarele în AI?

Imaginați-vă că aveți două modele, un encoder și un decodor, de lucru împreună ca o echipă. Codificatorul preia o intrare și o transformă într-un vector cu lungime fixă. Apoi, decodorul ia acel vector și îl transformă într-o secvență de ieșire. Aceste modele sunt antrenate împreună pentru a se asigura că ieșirea se potrivește cât mai bine cu intrarea.

Atât codificatorul, cât și decodorul aveau mai multe straturi. Fiecare strat din codificator avea două substraturi: un strat de auto-atenție cu mai multe capete și o rețea simplă de feed forward. Stratul de auto-atenție ajută fiecare token din intrare să înțeleagă relațiile cu toate celelalte simboluri. Aceste substraturi au, de asemenea, o conexiune reziduală și o normalizare a stratului pentru a face procesul de învățare mai ușor.

Multi-cap al decodorului strat de autoatenție funcționează puțin diferit față de cel din encoder. Maschează jetoanele din dreapta jetoanelor pe care se concentrează. Acest lucru asigură că decodorul se uită doar la jetoanele care vin înaintea celui pe care încearcă să-l prezică. Această atenție mascată cu mai multe capete ajută decodorul să genereze predicții precise. În plus, decodorul include un alt substrat, care este un strat de atenție cu mai multe capete peste toate ieșirile de la encoder.

Este important de reținut că aceste detalii specifice au fost modificate în diferite variante ale modelului Transformer. Modele precum BERT și GPT, de exemplu, se bazează fie pe aspectul codificatorului, fie al celui decodor al arhitecturii originale.

Ce sunt straturile de atenție în AI?

În arhitectura modelului despre care am discutat mai devreme, straturile de atenție cu mai multe capete sunt elementele speciale care îl fac puternic. Dar ce este mai exact atenția? Gândiți-vă la aceasta ca la o funcție care mapează o întrebare la un set de informații și oferă o ieșire. Fiecare token din intrare are asociate o interogare, o cheie și o valoare. Reprezentarea de ieșire a fiecărui jeton este calculată luând o sumă ponderată a valorilor, unde ponderea pentru fiecare valoare este determinată de cât de bine se potrivește interogării.

Transformatoarele folosesc o funcție de compatibilitate numită produs punctual scalat pentru a calcula aceste greutăți. Lucrul interesant despre atenția în Transformers este că fiecare jeton trece prin propria cale de calcul, permițând calculul paralel al tuturor jetonelor din secvența de intrare. Sunt pur și simplu mai multe blocuri de atenție care calculează independent reprezentări pentru fiecare jeton. Aceste reprezentări sunt apoi combinate pentru a crea reprezentarea finală a jetonului.

În comparație cu alte tipuri de rețele precum recurente și rețele convoluționale, straturile de atenție au câteva avantaje. Sunt eficiente din punct de vedere computațional, ceea ce înseamnă că pot procesa informații rapid. De asemenea, au o conectivitate mai mare, ceea ce este util pentru captarea relațiilor pe termen lung în secvențe.

Ce sunt modelele reglate fin în AI?

Modele de fundație sunt modele puternice care sunt antrenate pe o cantitate mare de date generale. Ele pot fi apoi adaptate sau ajustate pentru sarcini specifice, antrenându-i pe un set mai mic de date specifice țintei. Această abordare, popularizată de Hârtia BERT, a condus la dominarea modelelor bazate pe Transformer în sarcinile de învățare automată legate de limbaj.

În cazul modelelor precum BERT, acestea produc reprezentări ale jetoanelor de intrare, dar nu realizează sarcini specifice pe cont propriu. Pentru a le face utile, suplimentare straturi neuronale sunt adăugate deasupra și modelul este antrenat de la capăt la capăt, un proces cunoscut sub numele de reglare fină. Cu toate acestea, cu modele generative ca GPT, abordarea este puțin diferită. GPT este un model de limbaj decodor antrenat pentru a prezice următorul cuvânt dintr-o propoziție. Prin instruire pe cantități mari de date web, GPT poate genera rezultate rezonabile bazate pe interogări sau solicitări de intrare.

A face GPT mai util, OpenAI cercetătorii au dezvoltat InstruiGPT, care este antrenat să urmeze instrucțiunile umane. Acest lucru se realizează prin reglare fină GPT folosind date etichetate de om din diverse sarcini. InstruiGPT este capabil să îndeplinească o gamă largă de sarcini și este utilizat de motoarele populare precum ChatGPT.

Reglajul fin poate fi folosit și pentru a crea variante de modele de fundație optimizate pentru scopuri specifice dincolo de modelarea limbajului. De exemplu, există modele ajustate pentru sarcini semantice, cum ar fi clasificarea textului și regăsirea căutării. În plus, codificatoarele cu transformator au fost reglate cu succes în cadrul multi-task cadre de învățare pentru a efectua mai multe sarcini semantice folosind un singur model partajat.

Astăzi, reglarea fină este folosită pentru a crea versiuni ale modelelor de fundație care pot fi utilizate de un număr mare de utilizatori. Procesul implică generarea de răspunsuri la intrare solicită și avand oameni să ierarhească rezultatele. Acest clasament este folosit pentru a antrena a model de recompensă, care atribuie scoruri fiecărei rezultate. Învățare prin consolidare cu feedback uman este apoi folosit pentru a antrena în continuare modelul.

De ce sunt Transformers viitorul AI?

Transformers, un tip de model puternic, au fost demonstrate pentru prima dată în domeniul traducerii limbilor. Cu toate acestea, cercetătorii și-au dat seama rapid că Transformers ar putea fi folosite pentru diverse sarcini legate de limbaj, antrenându-i pe o cantitate mare de text neetichetat și apoi reglandu-le pe un set mai mic de date etichetate. Această abordare a permis lui Transformers să capteze cunoștințe semnificative despre limbaj.

Arhitectura Transformer, concepută inițial pentru sarcini de limbaj, a fost aplicată și altor aplicații precum generarea de imagini, audio, muzică și chiar acțiuni. Acest lucru a făcut din Transformers o componentă cheie în domeniul AI generativ, care este schimbarea diferitelor aspecte ale societății.

Disponibilitatea instrumentelor și cadrelor precum PyTorch și TensorFlow a jucat un rol crucial în adoptarea pe scară largă a modelelor Transformer. Companii precum Huggingface și-au construit afaceri în jurul ideii de comercializare a bibliotecilor Transformer open-source și hardware specializat, cum ar fi Hopper Tensor Cores de la NVIDIA, au accelerat și mai mult viteza de antrenament și de inferență a acestor modele.

O aplicație notabilă a Transformers este ChatGPT, un chatbot lansat de OpenAI. A devenit incredibil de popular, ajungând la milioane de utilizatori într-o perioadă scurtă. OpenAI a anunțat, de asemenea, lansarea lui GPT-4, o versiune mai puternică capabilă să atingă performanțe asemănătoare omului în sarcini precum examene medicale și juridice.

Impactul transformatoarelor în domeniul AI și gama lor largă de aplicații este de netăgăduit. Ei au a transformat drumul abordăm sarcinile legate de limbaj și deschidem calea pentru noi progrese în IA generativă.

3 tipuri de arhitecturi de preformare

Arhitectura Transformerului, constând inițial dintr-un Encoder și un Decoder, a evoluat pentru a include diferite variații bazate pe nevoi specifice. Să defalcăm aceste variații în termeni simpli.

Preinstruirea codificatorului: Aceste modele se concentrează pe înțelegerea propozițiilor sau pasajelor complete. În timpul antrenamentului preliminar, codificatorul este folosit pentru a reconstrui jetoanele mascate în propoziția de intrare. Acest lucru ajută modelul să învețe să înțeleagă contextul general. Astfel de modele sunt utile pentru sarcini precum clasificarea textului, implicarea și răspunsul la întrebări extractive.
Preinstruirea decodorului: Modelele de decodor sunt antrenate pentru a genera următorul token pe baza secvenței anterioare de jetoane. Sunt cunoscute ca modele de limbaj auto-regresive. Straturile de auto-atenție din decodor pot accesa doar token-uri înaintea unui anumit token din propoziție. Aceste modele sunt ideale pentru sarcini care implică generarea de text.
Transformator (Encoder-Decoder) Preinstruire: Această variație combină atât componentele codificatorului, cât și cele ale decodorului. Straturile de autoatenție ale codificatorului pot accesa toate jetoanele de intrare, în timp ce straturile de auto-atenție ale decodorului pot accesa doar jetoanele înaintea unui anumit token. Această arhitectură permite decodorului să utilizeze reprezentările învățate de codificator. Modelele de codificator-decodor sunt potrivite pentru sarcini precum rezumarea, traducerea sau răspunsul generativ la întrebări.

Obiectivele de preformare pot implica dezgomot sau modelarea limbajului cauzal. Aceste obiective sunt mai complexe pentru modelele codificator-decodor, comparativ cu modelele numai codificator sau numai decodor. Arhitectura Transformerului are diferite variații în funcție de focalizarea modelului. Fie că este vorba despre înțelegerea propozițiilor complete, generarea de text sau combinarea ambelor pentru diverse sarcini, Transformers oferă flexibilitate în abordarea diferitelor provocări legate de limbaj.

8 tipuri de sarcini pentru modele pre-antrenate

Când antrenăm un model, trebuie să îi dăm o sarcină sau un obiectiv din care să învățăm. Există diverse sarcini în procesarea limbajului natural (NLP) care pot fi utilizate pentru modele de pretraining. Să defalcăm câteva dintre aceste sarcini în termeni simpli:

Modelarea limbajului (LM): modelul prezice următorul simbol dintr-o propoziție. Învață să înțeleagă contextul și să genereze propoziții coerente.
Modelarea limbajului cauzal: modelul prezice următorul simbol dintr-o secvență de text, urmând o ordine de la stânga la dreapta. Este ca un model de povestire care generează propoziții câte un cuvânt.
Modelarea limbajului prefixului: Modelul separă o secțiune „prefix” de secvența principală. Se poate ocupa de orice simbol din prefix și apoi generează restul secvenței în mod autoregressiv.
Modelarea limbajului mascat (MLM): Unele jetoane din propozițiile de intrare sunt mascate, iar modelul prezice jetoanele lipsă pe baza contextului înconjurător. Învață să completeze spațiile libere.
Modelarea limbajului permutat (PLM): modelul prezice următorul token pe baza unei permutări aleatorii a secvenței de intrare. Învață să gestioneze diferite ordine de jetoane.
Autoencoder cu eliminarea zgomotului (DAE): Modelul preia o intrare parțial coruptă și urmărește să recupereze intrarea originală, nedistorsionată. Învață să gestioneze zgomotul sau părțile lipsă din text.
Replaced Token Detection (RTD): Modelul detectează dacă un jeton provine din textul original sau dintr-o versiune generată. Învață să identifice jetoanele înlocuite sau manipulate.
Next Sentence Prediction (NSP): Modelul învață să distingă dacă două propoziții de intrare sunt segmente continue din datele de antrenament. Înțelege relația dintre propoziții.

Aceste sarcini ajută modelul să învețe structura și sensul limbajului. Prin pregătirea preliminară pentru aceste sarcini, modelele dobândesc o bună înțelegere a limbajului înainte de a fi ajustate pentru aplicații specifice.

Top 30+ de transformatoare în AI

Nume si Prenume	Arhitectură de preformare	Sarcină	aplicație	Dezvoltat de
ALBERT	codificator	MLM/NSP	La fel ca BERT	Google
Alpaca	decodor	LM	Sarcini de generare și clasificare de text	Stanford
AlphaFold	codificator	Predicția de pliere a proteinelor	Plierea proteinelor	adânc Mind
Asistent antropic (vezi și)	decodor	LM	De la dialog general la asistent de cod.	Antropică
BART	Encoder/Decoder	DAE	Generarea textului și sarcinile de înțelegere a textului	Facebook
OARET	codificator	MLM/NSP	Înțelegerea limbii și răspunsul la întrebări	Google
BlenderBot 3	decodor	LM	Generarea textului și sarcinile de înțelegere a textului	Facebook
A INFLORI	decodor	LM	Generarea textului și sarcinile de înțelegere a textului	Big Science/Huggingface
ChatGPT	decodor	LM	Agenți de dialog	OpenAI
Chinchilla	decodor	LM	Generarea textului și sarcinile de înțelegere a textului	adânc Mind
CLIP	codificator		Clasificare imagine/obiect	OpenAI
CTRL	decodor		Generare de text controlabilă	Salesforce
DALĂ	decodor	Predicția subtitrării	Text în imagine	OpenAI
DALL-E-2	Encoder/Decoder	Predicția subtitrării	Text în imagine	OpenAI
DeBERTa	decodor	MLM	La fel ca BERT	Microsoft
Transformatori de decizie	decodor	Predicția următoarei acțiuni	RL general (sarcini de învățare prin întărire)	Google/UC Berkeley/FAIR
DialoGPT	decodor	LM	Generarea textului în setările de dialog	Microsoft
DistilBERT	codificator	MLM/NSP	Înțelegerea limbii și răspunsul la întrebări	Față îmbrățișată
DQ-BART	Encoder/Decoder	DAE	Generarea și înțelegerea textului	Amazon
păpușică	decodor	LM	Sarcini de generare și clasificare de text	Databricks, Inc
ERNIE	codificator	MLM	Sarcini aferente intensive de cunoștințe	Diverse instituții chineze
Flamingo	decodor	Predicția subtitrării	Text în imagine	adânc Mind
Galactica	decodor	LM	Calitatea științifică, raționamentul matematic, rezumarea, generarea de documente, predicția proprietăților moleculare și extracția de entități.	meta
ALUNECARE	codificator	Predicția subtitrării	Text în imagine	OpenAI
GPT-3.5	decodor	LM	Dialog și limbaj general	OpenAI
GPTInstrui	decodor	LM	Dialog sau sarcini lingvistice intensive în cunoștințe	OpenAI
HTML	Encoder/Decoder	DAE	Model de limbaj care permite solicitarea HTML structurată	Facebook
Imagine	T5	Predicția subtitrării	Text în imagine	Google
LAMDA	decodor	LM	Modelarea limbajului general	Google
LLaMA	decodor	LM	Raționament în sens comun, răspuns la întrebări, generare de cod și înțelegere a citirii.	meta
Minerva	decodor	LM	Raționamentul matematic	Google
palmier	decodor	LM	Înțelegerea și generarea limbajului	Google
ROBERTa	codificator	MLM	Înțelegerea limbii și răspunsul la întrebări	UW/Google
Vrabie	decodor	LM	Agenți de dialog și aplicații generale de generare a limbajului, cum ar fi Q&A	adânc Mind
StableDiffusion	Encoder/Decoder	Predicție subtitrare	Text în imagine	LMU Munchen + Stability.ai + Eleuther.ai
Vicuna	decodor	LM	Agenți de dialog	UC Berkeley, CMU, Stanford, UC San Diego și MBZUAI

Întrebări frecvente

Transformatoarele din IA sunt un tip de arhitectură de învățare profundă care a schimbat procesarea limbajului natural și alte sarcini. Ei folosesc mecanisme de auto-atenție pentru a capta relațiile dintre cuvintele dintr-o propoziție, permițându-le să înțeleagă și să genereze text asemănător unui om.

Codificatoarele și decodoarele sunt componente utilizate în mod obișnuit în modelele secvență-la-secvență. Codificatoarele procesează datele de intrare, cum ar fi textul sau imaginile, și le convertesc într-o reprezentare comprimată, în timp ce decodoarele generează date de ieșire pe baza reprezentării codificate, permițând sarcini precum traducerea limbii sau subtitrărea imaginilor.

Straturile de atenție sunt componente utilizate în rețele neuronale, în special în modelele Transformer. Acestea permit modelului să se concentreze selectiv pe diferite părți ale secvenței de intrare, atribuind ponderi fiecărui element pe baza relevanței sale, permițând capturarea dependențelor și relațiilor dintre elemente în mod eficient.

Modelele ajustate se referă la modele pre-antrenate care au fost instruite în continuare pe o anumită sarcină sau un set de date pentru a-și îmbunătăți performanța și a le adapta la cerințele specifice ale acelei sarcini. Acest proces de reglare fină implică ajustarea parametrilor modelului pentru a-și optimiza predicțiile și a-l face mai specializat pentru sarcina țintă.

Transformatoarele sunt considerate viitorul AI deoarece au demonstrat performanțe excepționale într-o gamă largă de sarcini, inclusiv procesarea limbajului natural, generarea de imagini și multe altele. Capacitatea lor de a capta dependențe pe distanță lungă și de a procesa eficient datele secvențiale le face extrem de adaptabile și eficiente pentru diverse aplicații, deschizând calea pentru progrese în IA generativă și revoluționând multe aspecte ale societății.

Cele mai faimoase modele de transformatoare din AI includ BERT (Reprezentările codificatorului bidirecțional de la transformatoare), GPT (Generative Pre-trained Transformer) și T5 (Text-to-Text Transfer Transformer). Aceste modele au obținut rezultate remarcabile în diferite sarcini de procesare a limbajului natural și au câștigat o popularitate semnificativă în comunitatea de cercetare AI.

Citiți mai multe despre AI:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.

Mai multe articole

Damir Yalalov