Novinky Technika
15. března 2023

Facebook vyvíjí novou metodu pro zdvojnásobení výkonu AI transformátorů

Stručně

Facebook vyvinul novou metodu pro zdvojnásobení výkonu AI transformátorů založenou na architektuře transformátoru.

Nová metoda najde nejpodobnější záplaty v mezerách mezi zpracováním různých bloků a kombinuje je, aby se snížila výpočetní složitost.

Facebook vyvinul a Novou metodu pro zdvojnásobení výkonu AI transformátorů. Metoda je na základě architektury transformátoru a je speciálně navržen pro dlouhý text, jako jsou knihy, články a blogy. Cílem nového AI transformátoru je zlepšit výkon modely založené na transformátorech na dlouhý text tím, že je zefektivní a zefektivní zpracování dlouhých sekvencí. Výsledky AI transformátoru jsou velmi slibné a tato nová metoda má šanci pomoci zlepšit výkon modelů založených na transformátorech u různých úkolů.

Očekává se, že tato nová metoda bude mít významný dopad na úlohy zpracování přirozeného jazyka, jako je jazykový překlad, sumarizace a systémy odpovědí na otázky. Očekává se také, že povede k vývoji sofistikovanějších modelů umělé inteligence, které si poradí s delšími a složitějšími texty.

Facebook vyvinul novou metodu pro zdvojnásobení výkonu AI transformátorů
Čtěte více: 10+ nejlepších editorů fotografií AI 2023: online a zdarma

Pro zpracování obrazu jej moderní transformátory rozřezávají na pole (obvykle čtverce: viz gif níže) a poté pracují s reprezentacemi těchto částic, z nichž každá je reprezentována „tokenem“. Transformátory, jak víme, pracují tím pomaleji, čím více těchto kusů tokenů je (to platí pro texty i obrázky), a nejběžnější transformátor má kvadratický vztah. To znamená, že čím více žetonů bude přidáno, tím bude zpracování pomalejší. K vyřešení tohoto problému výzkumníci navrhli různé techniky ke snížení počtu tokenů potřebných pro zpracování obrazu, jako je hierarchické a adaptivní sdružování. Tyto metody mají za cíl zachovat kvalitu výstupu a zároveň minimalizovat výpočetní náklady.

Nová metoda najde nejpodobnější záplaty v mezerách mezi zpracováním různých bloků a zkombinuje je, aby se snížila výpočetní složitost. Podíl sloučených tokenů je hyperparametr; čím je vyšší, tím je nižší kvalita, ale také vyšší zrychlení. Experimenty ukazují, že je možné sloučit přibližně 40 % tokenů se ztrátou kvality 0.1-0.4 % a získat dvojnásobné zrychlení (čímž spotřebuje méně paměti). Tato nová metoda je slibným řešením pro snížení výpočetní náročnosti zpracování obrazu a mohla by umožnit rychlejší a efektivnější zpracování, aniž by byla ohrožena kvalita konečného výstupu.

Když si představíme, které oblasti spojujeme, můžeme vidět, že jsou 1) blízko sebe a 2) popisují stejný objekt (viz oblasti stejné barvy na GIF). To znamená, že se neztratí žádné významné informace; objekt zůstává „v zorném poli“ modelu. Čím později je toto v transformátoru aplikováno, tím více tokenů je sloučeno (protože se jedná o reprezentace vyšší úrovně, které samy dobře popisují obsah obrázku).

Takové inženýrské přístupy založené na vynalézavosti a pochopení toho, jak něco funguje, vypadají velmi přitažlivě. Vývojáři Meta také slibují, že přinesou více do StableDiffusion, aby se věci urychlily i tam. Je úžasné, že protože transformátory jsou všude, lze takové triky rychle implementovat do široké řady modelů. To ukazuje potenciál inženýrských řešení pro široký dopad v různých průmyslových odvětvích. Bude zajímavé sledovat, jak se tyto pokroky projeví modely transformátorů se bude časem vyvíjet a zlepšovat.

  • Meta AI a Paperswithcode vydali první model 120B Galactica vyškolený na vědeckých textech, což umožňuje přesnější a rychlejší předpovědi. Cílem Galactica je pomoci výzkumníkům oddělit důležité od nepodstatného.

Přečtěte si další související novinky:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.