Naujienų ataskaita Technologija
Kovo 15, 2023

„Facebook“ kuria naują metodą, kaip padvigubinti AI transformatorių našumą

Trumpai

„Facebook“ sukūrė naują metodą, kaip padvigubinti AI transformatorių našumą, pagrįstą transformatoriaus architektūra.

Naujasis metodas suranda panašiausius tarpus tarp skirtingų blokų apdorojimo ir sujungia juos, kad sumažintų skaičiavimo sudėtingumą.

„Facebook“ sukūrė a naujas metodas AI transformatorių našumui padvigubinti. Metodas yra remiantis transformatoriaus architektūra ir yra specialiai sukurtas ilgos formos tekstui, pvz., knygoms, straipsniams ir tinklaraščiams. Naujojo AI transformatoriaus tikslas yra pagerinti našumą transformatorių modeliai ilgos formos tekstui, padarydami juos veiksmingesnius ir veiksmingesnius tvarkant ilgas sekas. AI transformatoriaus rezultatai yra daug žadantys, o šis naujas metodas gali padėti pagerinti transformatoriumi pagrįstų modelių veikimą atliekant įvairias užduotis.

Tikimasi, kad šis naujas metodas turės didelės įtakos natūralios kalbos apdorojimo užduotims, tokioms kaip kalbos vertimas, apibendrinimas ir atsakymų į klausimus sistemoms. Taip pat tikimasi, kad tai padės sukurti sudėtingesnius AI modelius, galinčius tvarkyti ilgesnius ir sudėtingesnius tekstus.

„Facebook“ sukūrė naują metodą, kaip padvigubinti AI transformatorių našumą
Plačiau paskaitykite čia: 10 ir daugiau geriausių 2023 m. dirbtinio intelekto nuotraukų redaktorių: internetu ir nemokamai

Norėdami apdoroti vaizdą, šiuolaikiniai transformatoriai supjausto jį į lopinėlius (dažniausiai kvadratus: žr. toliau pateiktą gif failą), o tada veikia pagal šių dalelių atvaizdus, ​​kurių kiekviena yra pavaizduota „žetonu“. Transformatoriai, kaip žinome, veikia lėčiau, kuo daugiau šių žetonų dalių (tai galioja ir tekstams, ir vaizdams), o labiausiai paplitęs transformatorius turi kvadratinį ryšį. Tai yra, kai pridedama daugiau žetonų, tuo lėtėja apdorojimas. Norėdami išspręsti šią problemą, mokslininkai pasiūlė įvairius metodus, kaip sumažinti vaizdo apdorojimui reikalingų žetonų skaičių, pavyzdžiui, hierarchinį ir adaptyvų telkimą. Šiais metodais siekiama išlaikyti produkcijos kokybę, tuo pačiu sumažinant skaičiavimo išlaidas.

Naujasis metodas suranda panašiausius tarpus tarp skirtingų blokų apdorojimo ir sujungia juos, kad sumažintų skaičiavimo sudėtingumą. Sujungtų žetonų dalis yra hiperparametras; kuo jis didesnis, tuo prastesnė kokybė, bet ir didesnis pagreitis. Eksperimentai rodo, kad galima sujungti maždaug 40% žetonų su 0.1–0.4% kokybės praradimu ir gauti dvigubą pagreitį (taip sunaudojant mažiau atminties). Šis naujas metodas yra perspektyvus sprendimas, leidžiantis sumažinti vaizdų apdorojimo skaičiavimo sudėtingumą ir leistų greičiau bei efektyviau apdoroti nepakenkiant galutinio išvesties kokybei.

Kai vizualizuojame, kuriuos pleistrus sujungiame, matome, kad jie yra 1) šalia vienas kito ir 2) apibūdina tą patį objektą (žr. GIF tos pačios spalvos sritis). Tai reiškia, kad neprarandama jokia reikšminga informacija; objektas lieka modelio „matymo lauke“. Kuo vėliau tai taikoma transformatoriuje, tuo daugiau žetonų sujungiami (nes tai yra aukštesnio lygio atvaizdai, kurie patys gerai apibūdina vaizdo turinį).

Tokie inžineriniai metodai, pagrįsti išradingumu ir supratimu, kaip kažkas veikia, atrodo labai patraukliai. Be to, „Meta“ kūrėjai žada daugiau įdėti į „StableDiffusion“, kad paspartintų veiklą. Nuostabu, kad kadangi transformatorių yra visur, tokius triukus galima greitai pritaikyti įvairiausiuose modeliuose. Tai rodo, kad inžineriniai sprendimai gali turėti platų poveikį įvairiose pramonės šakose. Bus įdomu pamatyti, kaip šie pasiekimai pasiteisins transformatorių modeliai laikui bėgant toliau vystysis ir tobulės.

  • Meta AI ir Paperswithcode išleido pirmąjį 120B modelį Galactica, parengtą remiantis moksliniais tekstais, leidžiančius tiksliau ir greičiau prognozuoti. „Galactica“ tikslas – padėti tyrėjams atskirti tai, kas svarbu nuo nereikšmingo.

Skaitykite daugiau susijusių naujienų:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Atsakingas verslas Naujienų ataskaita Technologija
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Gali 3, 2024
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
rinkos Naujienų ataskaita Technologija
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
Gali 3, 2024
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
rinkos Naujienų ataskaita Technologija
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
Gali 3, 2024
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Atsakingas verslas Naujienų ataskaita Technologija
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Gali 3, 2024
CRYPTOMERIA LABS PTE. LTD.