Marts 15, 2023

Facebook udvikler en ny metode til at fordoble ydeevnen af AI-transformere

Udgivet: 15. marts 2023 kl. 4 Opdateret: 00. marts 15 kl. 2023

Kort sagt

Facebook har udviklet en ny metode til at fordoble ydelsen af AI-transformere baseret på transformatorarkitekturen.

Den nye metode finder de mest lignende patches i hullerne mellem behandling af forskellige blokke og kombinerer dem for at reducere beregningsmæssig kompleksitet.

Facebook har udviklet en Ny metode for at fordoble AI-transformatorernes ydeevne. Metoden er baseret på transformatorarkitekturen og er specielt designet til tekst i lang form, såsom bøger, artikler og blogs. Målet med den nye AI-transformer er at forbedre ydeevnen af transformator-baserede modeller på lang tekst ved at gøre dem mere effektive til at håndtere lange sekvenser. Resultaterne af AI-transformeren er meget lovende, og denne nye metode har en chance for at hjælpe med at forbedre ydeevnen af transformer-baserede modeller på en række forskellige opgaver.

Denne nye metode forventes at have en betydelig indvirkning på naturlige sprogbehandlingsopgaver, såsom sprogoversættelse, opsummering og systemer til besvarelse af spørgsmål. Det forventes også at føre til udviklingen af mere sofistikerede AI-modeller, der kan håndtere længere og mere komplekse tekster.

Facebook udviklede en ny metode til at fordoble ydeevnen af AI-transformere

Læs mere: 10+ bedste AI-fotoredigerere 2023: Online og gratis

For at behandle billedet skærer moderne transformatorer det i pletter (normalt firkanter: se gif'en nedenfor) og opererer derefter på repræsentationer af disse partikler, som hver er repræsenteret af et "token". Transformere arbejder som bekendt langsommere, jo flere af disse tokenbrikker der er (det gælder både tekster og billeder), og den mest almindelige transformer har et kvadratisk forhold. Det vil sige, at efterhånden som flere tokens tilføjes, jo langsommere bliver behandlingen. For at løse dette problem har forskere foreslået forskellige teknikker til at reducere antallet af tokens, der kræves til billedbehandling, såsom hierarkisk og adaptiv pooling. Disse metoder sigter mod at opretholde kvaliteten af outputtet og samtidig minimere beregningsomkostningerne.

Den nye metode finder de mest lignende patches i hullerne mellem behandling af forskellige blokke og kombinerer dem for at reducere beregningsmæssig kompleksitet. Andelen af flettede tokens er en hyperparameter; jo højere den er, jo lavere kvalitet, men også højere acceleration. Eksperimenter viser, at det er muligt at fusionere cirka 40 % af tokens med et kvalitetstab på 0.1-0.4 % og få dobbelt acceleration (og dermed mindre hukommelse). Denne nye metode er en lovende løsning til at reducere den beregningsmæssige kompleksitet af billedbehandling og kunne give mulighed for hurtigere og mere effektiv behandling uden at gå på kompromis med kvaliteten af det endelige output.

Når vi visualiserer, hvilke patches vi smelter sammen, kan vi se, at de er 1) tæt på hinanden og 2) beskriver det samme objekt (se områder med samme farve på GIF'en). Det vil sige, at ingen væsentlig information går tabt; objektet forbliver "i synsfeltet" af modellen. Jo senere dette påføres i transformeren, jo flere tokens flettes (da disse er repræsentationer på højere niveau, der i sig selv beskriver indholdet af billedet godt).

Sådanne tekniske tilgange baseret på opfindsomhed og forståelse af, hvordan noget fungerer, ser meget tiltalende ud. Også Metas udviklere lover at bringe mere til StableDiffusion for også at fremskynde tingene der. Det er fantastisk, at fordi transformere er overalt, kan sådanne tricks hurtigt implementeres i en lang række modeller. Dette viser potentialet for, at tekniske løsninger har en bred indvirkning på tværs af forskellige industrier. Det bliver interessant at se, hvordan disse fremskridt indtræder transformator modeller vil fortsætte med at udvikle sig og forbedre sig over tid.

Meta AI og Paperswithcode har udgivet den første 120B-model Galactica trænet på videnskabelige tekster, hvilket giver mulighed for mere præcise og hurtigere forudsigelser. Målet med Galactica er at hjælpe forskere med at adskille det vigtige fra det irrelevante.

Læs flere relaterede nyheder:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov