Mars 15, 2023

Facebook utvecklar en ny metod för att fördubbla prestanda hos AI-transformatorer

Publicerad: 15 mars 2023 kl. 4 Uppdaterad: 00 mars 15 kl. 2023

I korthet

Facebook har utvecklat en ny metod för att fördubbla prestanda hos AI-transformatorer baserat på transformatorarkitekturen.

Den nya metoden hittar de mest lika lapparna i luckorna mellan bearbetning av olika block och kombinerar dem för att minska beräkningskomplexiteten.

Facebook har utvecklat en Ny metod för att fördubbla prestanda hos AI-transformatorer. Metoden är baserat på transformatorarkitekturen och är speciellt utformad för långformad text som böcker, artiklar och bloggar. Målet med den nya AI-transformatorn är att förbättra prestandan för transformatorbaserade modeller på långa texter genom att göra dem mer effektiva och effektiva för att hantera långa sekvenser. Resultaten av AI-transformatorn är mycket lovande, och den här nya metoden har en chans att hjälpa till att förbättra prestandan för transformatorbaserade modeller för en mängd olika uppgifter.

Denna nya metod förväntas ha en betydande inverkan på naturliga språkbearbetningsuppgifter, såsom språköversättning, sammanfattning och system för svar på frågor. Det förväntas också leda till utvecklingen av mer sofistikerade AI-modeller som kan hantera längre och mer komplexa texter.

Facebook utvecklade en ny metod för att fördubbla prestanda hos AI-transformatorer

Läs mer: 10+ bästa AI-fotoredigerare 2023: Online och gratis

För att bearbeta bilden skär moderna transformatorer den i fläckar (vanligtvis rutor: se gif-filen nedan) och arbetar sedan på representationer av dessa partiklar, som var och en representeras av en "token". Transformatorer, som vi vet, fungerar långsammare ju fler av dessa tokenbitar det finns (detta gäller både texter och bilder), och den vanligaste transformatorn har en kvadratisk relation. Det vill säga, eftersom fler tokens läggs till, desto långsammare blir behandlingen. För att lösa detta problem har forskare föreslagit olika tekniker för att minska antalet tokens som krävs för bildbehandling, såsom hierarkisk och adaptiv pooling. Dessa metoder syftar till att bibehålla kvaliteten på resultatet samtidigt som beräkningskostnaden minimeras.

Den nya metoden hittar de mest lika lapparna i luckorna mellan bearbetning av olika block och kombinerar dem för att minska beräkningskomplexiteten. Andelen sammanslagna tokens är en hyperparameter; ju högre den är, desto lägre kvalitet men också högre acceleration. Experiment visar att det är möjligt att slå samman cirka 40 % av tokens med en kvalitetsförlust på 0.1-0.4 % och få dubbel acceleration (därmed mindre minne). Denna nya metod är en lovande lösning för att minska beräkningskomplexiteten för bildbehandling och skulle kunna möjliggöra snabbare och mer effektiv bearbetning utan att kompromissa med kvaliteten på den slutliga utskriften.

När vi visualiserar vilka lappar vi slår samman kan vi se att de är 1) nära varandra och 2) beskriver samma objekt (se områden med samma färg på GIF). Det vill säga att ingen betydande information går förlorad; objektet förblir "i synfältet" av modellen. Ju senare detta appliceras i transformatorn, desto fler tokens slås samman (eftersom dessa är representationer på högre nivåer som själva beskriver innehållet i bilden väl).

Sådana tekniska tillvägagångssätt baserade på uppfinningsrikedom och förståelse för hur något fungerar ser väldigt tilltalande ut. Dessutom lovar Metas utvecklare att ta med mer till StableDiffusion för att påskynda saker där också. Det är fantastiskt att, eftersom transformatorer finns överallt, kan sådana knep snabbt implementeras i ett brett utbud av modeller. Detta visar potentialen för tekniska lösningar att ha en bred inverkan inom olika branscher. Det ska bli intressant att se hur dessa framsteg görs transformatormodeller kommer att fortsätta att utvecklas och förbättras med tiden.

Meta AI och Paperswithcode har släppt den första 120B-modellen Galactica tränad på vetenskapliga texter, vilket möjliggör mer exakta och snabbare förutsägelser. Målet med Galactica är att hjälpa forskare att skilja det viktiga från det irrelevanta.

Läs fler relaterade nyheter:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov