Novinová správa Technológia
March 15, 2023

Facebook vyvíja novú metódu na zdvojnásobenie výkonu AI transformátorov

Stručne

Facebook vyvinul novú metódu na zdvojnásobenie výkonu AI transformátorov založenú na architektúre transformátora.

Nová metóda nájde najpodobnejšie záplaty v medzerách medzi spracovaním rôznych blokov a kombinuje ich, aby sa znížila výpočtová náročnosť.

Facebook vyvinul a Nová metóda pre zdvojnásobenie výkonu AI transformátorov. Metóda je na základe architektúry transformátora a je špeciálne navrhnutý pre dlhý text, ako sú knihy, články a blogy. Cieľom nového AI transformátora je zlepšiť výkon modely založené na transformátoroch na dlhý text tým, že sú efektívnejšie a efektívnejšie pri manipulácii s dlhými sekvenciami. Výsledky AI transformátora sú veľmi sľubné a táto nová metóda má šancu pomôcť zlepšiť výkon modelov založených na transformátoroch pri rôznych úlohách.

Očakáva sa, že táto nová metóda bude mať významný vplyv na úlohy spracovania prirodzeného jazyka, ako je jazykový preklad, sumarizácia a systémy odpovedí na otázky. Očakáva sa tiež, že povedie k vývoju sofistikovanejších modelov AI, ktoré dokážu zvládnuť dlhšie a zložitejšie texty.

Facebook vyvinul novú metódu na zdvojnásobenie výkonu AI transformátorov
Prečítajte si viac: 10+ najlepších AI Photo Editors 2023: Online a zadarmo

Na spracovanie obrazu ho moderné transformátory rozrežú na záplaty (zvyčajne štvorce: pozri gif nižšie) a potom pracujú s reprezentáciami týchto častíc, z ktorých každá je reprezentovaná „tokenom“. Transformátory, ako vieme, pracujú pomalšie, čím viac týchto dielikov tokenov je (to platí pre texty aj obrázky) a najbežnejší transformátor má kvadratický vzťah. To znamená, že čím viac žetónov sa pridáva, tým je spracovanie pomalšie. Na vyriešenie tohto problému výskumníci navrhli rôzne techniky na zníženie počtu tokenov potrebných na spracovanie obrazu, ako je hierarchické a adaptívne združovanie. Cieľom týchto metód je zachovať kvalitu výstupu pri minimalizácii výpočtových nákladov.

Nová metóda nájde najpodobnejšie záplaty v medzerách medzi spracovaním rôznych blokov a skombinuje ich, aby sa znížila výpočtová náročnosť. Podiel zlúčených tokenov je hyperparameter; čím je vyššia, tým je nižšia kvalita, ale aj vyššie zrýchlenie. Experimenty ukazujú, že je možné zlúčiť približne 40% tokenov so stratou kvality 0.1-0.4% a získať dvojnásobné zrýchlenie (čím sa spotrebuje menej pamäte). Táto nová metóda je sľubným riešením na zníženie výpočtovej náročnosti spracovania obrazu a mohla by umožniť rýchlejšie a efektívnejšie spracovanie bez zníženia kvality konečného výstupu.

Keď si vizualizujeme, ktoré záplaty spájame, môžeme vidieť, že sú 1) blízko seba a 2) opisujú ten istý objekt (pozri oblasti rovnakej farby na GIF). To znamená, že sa nestratí žiadna významná informácia; objekt zostáva „v zornom poli“ modelu. Čím neskôr sa to použije v transformátore, tým viac tokenov sa zlúči (keďže ide o reprezentácie vyššej úrovne, ktoré dobre popisujú obsah obrázka).

Takéto inžinierske prístupy založené na vynaliezavosti a pochopení toho, ako niečo funguje, vyzerajú veľmi príťažlivo. Vývojári Meta tiež sľubujú, že prinesú viac do StableDiffusion, aby sa veci urýchlili aj tam. Je úžasné, že keďže transformátory sú všade, takéto triky sa dajú rýchlo implementovať do širokej škály modelov. To ukazuje potenciál inžinierskych riešení, ktoré majú široký vplyv v rôznych priemyselných odvetviach. Bude zaujímavé sledovať, ako sa tieto pokroky prejavia modely transformátorov sa bude časom naďalej vyvíjať a zlepšovať.

  • Meta AI a Paperswithcode vydali prvý 120B model Galactica vyškolený na vedeckých textoch, čo umožňuje presnejšie a rýchlejšie predpovede. Cieľom Galactica je pomôcť výskumníkom oddeliť dôležité od nepodstatného.

Prečítajte si ďalšie súvisiace novinky:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.