Buletin de stiri Tehnologia
Martie 15, 2023

Facebook dezvoltă o nouă metodă de dublare a performanței transformatoarelor AI

Pe scurt

Facebook a dezvoltat o nouă metodă de dublare a performanței transformatoarelor AI bazată pe arhitectura transformatorului.

Noua metodă găsește cele mai asemănătoare patch-uri în golurile dintre procesarea diferitelor blocuri și le combină pentru a reduce complexitatea de calcul.

Facebook a dezvoltat un Noua metodă pentru dublarea performanței transformatoarelor AI. Metoda este bazat pe arhitectura transformatorului și este conceput special pentru text de formă lungă, cum ar fi cărți, articole și bloguri. Scopul noului transformator AI este de a îmbunătăți performanța modele bazate pe transformator pe textul de formă lungă, făcându-le mai eficiente și mai eficiente în manipularea secvențelor lungi. Rezultatele transformatorului AI sunt foarte promițătoare, iar această nouă metodă are șansa de a ajuta la îmbunătățirea performanței modelelor bazate pe transformator pentru o varietate de sarcini.

Se așteaptă că această nouă metodă va avea un impact semnificativ asupra sarcinilor de procesare a limbajului natural, cum ar fi traducerea limbii, rezumarea și sistemele de răspuns la întrebări. De asemenea, este de așteptat să conducă la dezvoltarea unor modele AI mai sofisticate, care pot gestiona texte mai lungi și mai complexe.

Facebook a dezvoltat o nouă metodă de dublare a performanței transformatoarelor AI
Citeşte mai mult: Cele mai bune 10 editoare foto AI 2023: online și gratuite

Pentru a procesa imaginea, transformatoarele moderne o decupează în petice (de obicei pătrate: vezi gif-ul de mai jos) și apoi operează pe reprezentări ale acestor particule, fiecare dintre acestea fiind reprezentată de un „jeton”. Transformatoarele, după cum știm, funcționează mai lent cu cât există mai multe dintre aceste piese simbol (acest lucru se aplică atât textelor, cât și imaginilor), iar cel mai comun transformator are o relație pătratică. Adică, pe măsură ce se adaugă mai multe jetoane, cu atât procesarea devine mai lentă. Pentru a aborda această problemă, cercetătorii au propus diverse tehnici pentru a reduce numărul de jetoane necesare procesării imaginilor, cum ar fi poolingul ierarhic și adaptiv. Aceste metode urmăresc menținerea calității rezultatelor reducând în același timp costul de calcul.

Noua metodă găsește cele mai asemănătoare patch-uri în golurile dintre procesarea diferitelor blocuri și le combină pentru a reduce complexitatea de calcul. Ponderea jetoanelor îmbinate este un hiperparametru; cu cât este mai mare, cu atât calitatea este mai scăzută dar și accelerația este mai mare. Experimentele arată că este posibil să fuzionați aproximativ 40% din jetoane cu o pierdere de calitate de 0.1-0.4% și să obțineți o accelerație dublă (consumând astfel mai puțină memorie). Această nouă metodă este o soluție promițătoare pentru reducerea complexității de calcul a procesării imaginilor și ar putea permite o procesare mai rapidă și mai eficientă, fără a compromite calitatea rezultatului final.

Când vizualizăm ce patch-uri îmbinăm, putem vedea că sunt 1) unul lângă celălalt și 2) descriu același obiect (vezi zonele de aceeași culoare pe GIF). Adică nu se pierde nicio informație semnificativă; obiectul rămâne „în câmpul vizual” al modelului. Cu cât acest lucru este aplicat mai târziu în transformator, cu atât mai multe jetoane sunt îmbinate (deoarece acestea sunt reprezentări de nivel superior care descriu ele însele bine conținutul imaginii).

Asemenea abordări de inginerie bazate pe ingeniozitate și înțelegerea modului în care funcționează ceva par foarte atrăgătoare. De asemenea, dezvoltatorii Meta promit să aducă mai mult la StableDiffusion pentru a accelera lucrurile și acolo. Este minunat că, deoarece transformatoarele sunt peste tot, astfel de trucuri pot fi implementate rapid într-o gamă largă de modele. Acest lucru arată potențialul ca soluțiile de inginerie să aibă un impact larg în diverse industrii. Va fi interesant de văzut cum aceste progrese în modele de transformatoare va continua să evolueze și să se îmbunătățească în timp.

  • Meta AI și Paperswithcode au lansat primul model 120B Galactica instruit pe texte științifice, permițând predicții mai precise și mai rapide. Scopul Galactica este de a ajuta cercetătorii să separe importantul de irelevant.

Citiți mai multe știri legate:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
Afaceri Buletin de stiri Tehnologia
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
3 Mai, 2024
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
pieţe Buletin de stiri Tehnologia
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
3 Mai, 2024
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
pieţe Buletin de stiri Tehnologia
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
3 Mai, 2024
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
Afaceri Buletin de stiri Tehnologia
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
3 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.