Març 15, 2023

Facebook desenvolupa un nou mètode per duplicar el rendiment dels transformadors d'IA

Publicat: 15 de març de 2023 a les 4:00 Actualitzat: 15 de març de 2023 a les 4:00

En breu

Facebook ha desenvolupat un nou mètode per duplicar el rendiment dels transformadors d'IA basat en l'arquitectura del transformador.

El nou mètode troba els pegats més similars als buits entre el processament de diferents blocs i els combina per reduir la complexitat computacional.

Facebook ha desenvolupat un nou mètode per duplicar el rendiment dels transformadors AI. El mètode és basat en l'arquitectura del transformador i està dissenyat específicament per a textos llargs com ara llibres, articles i blocs. L'objectiu del nou transformador d'IA és millorar el rendiment de models basats en transformadors en text llarg, fent-los més eficients i eficaços a l'hora de manejar seqüències llargues. Els resultats del transformador d'IA són molt prometedors, i aquest nou mètode té l'oportunitat d'ajudar a millorar el rendiment dels models basats en transformadors en una varietat de tasques.

S'espera que aquest nou mètode tingui un impacte significatiu en les tasques de processament del llenguatge natural, com ara la traducció del llenguatge, el resum i els sistemes de resposta a preguntes. També s'espera que condueixi al desenvolupament de models d'IA més sofisticats que puguin gestionar textos més llargs i complexos.

Facebook va desenvolupar un nou mètode per duplicar el rendiment dels transformadors d'IA

Llegir més: Més de 10 millors editors de fotos AI 2023: en línia i gratuïts

Per processar la imatge, els transformadors moderns la tallen en pedaços (generalment quadrats: vegeu el gif a continuació) i després operen amb representacions d'aquestes partícules, cadascuna de les quals està representada per un "token". Els transformadors, com sabem, funcionen més lentament com més peces hi ha d'aquestes fitxes (això s'aplica tant als textos com a les imatges), i el transformador més comú té una relació quadràtica. És a dir, a mesura que s'afegeixen més fitxes, més lent es fa el processament. Per abordar aquest problema, els investigadors han proposat diverses tècniques per reduir el nombre de fitxes necessaris per al processament d'imatges, com ara l'agrupació jeràrquica i adaptativa. Aquests mètodes tenen com a objectiu mantenir la qualitat de la sortida alhora que minimitzen el cost computacional.

El nou mètode troba els pegats més similars als buits entre el processament de diferents blocs i els combina per reduir la complexitat computacional. La quota de fitxes combinades és un hiperparàmetre; com més alt sigui, més baixa serà la qualitat però també major serà l'acceleració. Els experiments mostren que és possible combinar aproximadament el 40% dels fitxes amb una pèrdua de qualitat del 0.1 al 0.4% i obtenir una acceleració doble (consumint així menys memòria). Aquest nou mètode és una solució prometedora per reduir la complexitat computacional del processament d'imatges i podria permetre un processament més ràpid i eficient sense comprometre la qualitat de la sortida final.

Quan visualitzem quins pegats fusionem, podem veure que estan 1) a prop els uns dels altres i 2) descriuen el mateix objecte (vegeu àrees del mateix color al GIF). És a dir, no es perd cap informació significativa; l'objecte roman “en el camp de visió” del model. Com més tard s'aplica això al transformador, més fitxes es fusionen (ja que es tracta de representacions de nivell superior que descriuen bé el contingut de la imatge).

Aquests enfocaments d'enginyeria basats en l'enginy i la comprensió de com funciona alguna cosa semblen molt atractius. A més, els desenvolupadors de Meta prometen aportar més a StableDiffusion per tal d'accelerar les coses també. És increïble que, com que els transformadors estan a tot arreu, aquests trucs es puguin implementar ràpidament en una àmplia gamma de models. Això mostra el potencial de les solucions d'enginyeria per tenir un impacte ampli en diverses indústries. Serà interessant veure com es fan aquests avenços models de transformadors seguirà evolucionant i millorant amb el temps.

Meta AI i Paperswithcode han llançat el primer model 120B Galactica entrenat en textos científics, permetent prediccions més precises i ràpides. L'objectiu de Galactica és ajudar els investigadors a separar l'important de l'irrellevant.

Llegeix més notícies relacionades:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov

Hot Stories

Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM

by Alisa Davidson

Pot 03, 2024

Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base

by Alisa Davidson

Pot 03, 2024

Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP

by Alisa Davidson

Pot 03, 2024

CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses

by Alisa Davidson

Pot 03, 2024

Últimes notícies

Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM

by Alisa Davidson

Pot 03, 2024

Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base

by Alisa Davidson

Pot 03, 2024

Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP

by Alisa Davidson

Pot 03, 2024

CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses

by Alisa Davidson

Pot 03, 2024

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més