Facebook vyvíjí novou metodu pro zdvojnásobení výkonu AI transformátorů
Stručně
Facebook vyvinul novou metodu pro zdvojnásobení výkonu AI transformátorů založenou na architektuře transformátoru.
Nová metoda najde nejpodobnější záplaty v mezerách mezi zpracováním různých bloků a kombinuje je, aby se snížila výpočetní složitost.
Facebook vyvinul a Novou metodu pro zdvojnásobení výkonu AI transformátorů. Metoda je na základě architektury transformátoru a je speciálně navržen pro dlouhý text, jako jsou knihy, články a blogy. Cílem nového AI transformátoru je zlepšit výkon modely založené na transformátorech na dlouhý text tím, že je zefektivní a zefektivní zpracování dlouhých sekvencí. Výsledky AI transformátoru jsou velmi slibné a tato nová metoda má šanci pomoci zlepšit výkon modelů založených na transformátorech u různých úkolů.
Očekává se, že tato nová metoda bude mít významný dopad na úlohy zpracování přirozeného jazyka, jako je jazykový překlad, sumarizace a systémy odpovědí na otázky. Očekává se také, že povede k vývoji sofistikovanějších modelů umělé inteligence, které si poradí s delšími a složitějšími texty.
Pro zpracování obrazu jej moderní transformátory rozřezávají na pole (obvykle čtverce: viz gif níže) a poté pracují s reprezentacemi těchto částic, z nichž každá je reprezentována „tokenem“. Transformátory, jak víme, pracují tím pomaleji, čím více těchto kusů tokenů je (to platí pro texty i obrázky), a nejběžnější transformátor má kvadratický vztah. To znamená, že čím více žetonů bude přidáno, tím bude zpracování pomalejší. K vyřešení tohoto problému výzkumníci navrhli různé techniky ke snížení počtu tokenů potřebných pro zpracování obrazu, jako je hierarchické a adaptivní sdružování. Tyto metody mají za cíl zachovat kvalitu výstupu a zároveň minimalizovat výpočetní náklady.
Nová metoda najde nejpodobnější záplaty v mezerách mezi zpracováním různých bloků a zkombinuje je, aby se snížila výpočetní složitost. Podíl sloučených tokenů je hyperparametr; čím je vyšší, tím je nižší kvalita, ale také vyšší zrychlení. Experimenty ukazují, že je možné sloučit přibližně 40 % tokenů se ztrátou kvality 0.1-0.4 % a získat dvojnásobné zrychlení (čímž spotřebuje méně paměti). Tato nová metoda je slibným řešením pro snížení výpočetní náročnosti zpracování obrazu a mohla by umožnit rychlejší a efektivnější zpracování, aniž by byla ohrožena kvalita konečného výstupu.
Takové inženýrské přístupy založené na vynalézavosti a pochopení toho, jak něco funguje, vypadají velmi přitažlivě. Vývojáři Meta také slibují, že přinesou více do StableDiffusion, aby se věci urychlily i tam. Je úžasné, že protože transformátory jsou všude, lze takové triky rychle implementovat do široké řady modelů. To ukazuje potenciál inženýrských řešení pro široký dopad v různých průmyslových odvětvích. Bude zajímavé sledovat, jak se tyto pokroky projeví modely transformátorů se bude časem vyvíjet a zlepšovat.
- Meta AI a Paperswithcode vydali první model 120B Galactica vyškolený na vědeckých textech, což umožňuje přesnější a rychlejší předpovědi. Cílem Galactica je pomoci výzkumníkům oddělit důležité od nepodstatného.
Přečtěte si další související novinky:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.