Notizie Tecnologia
15 Marzo 2023

Facebook sviluppa un nuovo metodo per raddoppiare le prestazioni dei trasformatori di intelligenza artificiale

In Breve

Facebook ha sviluppato un nuovo metodo per raddoppiare le prestazioni dei trasformatori AI basati sull'architettura del trasformatore.

Il nuovo metodo trova le patch più simili negli spazi tra l'elaborazione di blocchi diversi e le combina per ridurre la complessità computazionale.

Facebook ha sviluppato un Nuovo metodo per raddoppiare le prestazioni dei trasformatori AI. Il metodo è basato sull'architettura del trasformatore ed è specificamente progettato per testi lunghi come libri, articoli e blog. L'obiettivo del nuovo trasformatore AI è quello di migliorare le prestazioni di modelli basati su trasformatore su testi di lunga durata rendendoli più efficienti ed efficaci nella gestione di lunghe sequenze. I risultati del trasformatore AI sono molto promettenti e questo nuovo metodo ha la possibilità di contribuire a migliorare le prestazioni dei modelli basati su trasformatore su una varietà di attività.

Si prevede che questo nuovo metodo avrà un impatto significativo sulle attività di elaborazione del linguaggio naturale, come la traduzione in lingua, il riepilogo e i sistemi di risposta alle domande. Si prevede inoltre che porterà allo sviluppo di modelli di intelligenza artificiale più sofisticati in grado di gestire testi più lunghi e complessi.

Facebook ha sviluppato un nuovo metodo per raddoppiare le prestazioni dei trasformatori AI
Leggi di più: 10+ migliori editor di foto AI 2023: online e gratuiti

Per elaborare l'immagine, i trasformatori moderni la tagliano in toppe (solitamente quadrati: vedi la gif sotto) e poi operano sulle rappresentazioni di queste particelle, ognuna delle quali è rappresentata da un "token". I trasformatori, come sappiamo, lavorano più lentamente quanto più ci sono questi pezzi simbolici (questo vale sia per i testi che per le immagini), e il trasformatore più comune ha una relazione quadratica. Cioè, più token vengono aggiunti, più lenta diventa l'elaborazione. Per affrontare questo problema, i ricercatori hanno proposto varie tecniche per ridurre il numero di token necessari per l'elaborazione delle immagini, come il pooling gerarchico e adattivo. Questi metodi mirano a mantenere la qualità dell'output riducendo al minimo il costo computazionale.

Il nuovo metodo trova le patch più simili negli spazi tra l'elaborazione di blocchi diversi e le combina per ridurre la complessità computazionale. La quota di token uniti è un iperparametro; più è alto, minore è la qualità ma anche maggiore è l'accelerazione. Gli esperimenti dimostrano che è possibile unire circa il 40% dei token con una perdita di qualità dello 0.1-0.4% e ottenere una doppia accelerazione (consumando quindi meno memoria). Questo nuovo metodo è una soluzione promettente per ridurre la complessità computazionale dell'elaborazione delle immagini e potrebbe consentire un'elaborazione più rapida ed efficiente senza compromettere la qualità dell'output finale.

Quando visualizziamo quali patch uniamo, possiamo vedere che sono 1) vicine l'una all'altra e 2) descrivono lo stesso oggetto (vedi aree dello stesso colore sulla GIF). Cioè, nessuna informazione significativa viene persa; l'oggetto rimane “nel campo visivo” del modello. Più tardi questo viene applicato nel trasformatore, più token vengono uniti (poiché si tratta di rappresentazioni di livello superiore che descrivono bene il contenuto dell'immagine).

Tali approcci ingegneristici basati sull'ingegnosità e sulla comprensione di come funziona qualcosa sembrano molto allettanti. Inoltre, gli sviluppatori di Meta promettono di portare di più a StableDiffusion per velocizzare le cose anche lì. È fantastico che, poiché i trasformatori sono ovunque, tali trucchi possano essere rapidamente implementati in un'ampia gamma di modelli. Ciò dimostra il potenziale per le soluzioni ingegneristiche di avere un ampio impatto in vari settori. Sarà interessante vedere come avvengono questi progressi modelli di trasformatori continuerà ad evolversi e migliorare nel tempo.

  • Meta AI e Paperswithcode hanno rilasciato il primo modello 120B Galactica addestrato su testi scientifici, consentendo previsioni più accurate e veloci. L'obiettivo di Galactica è aiutare i ricercatori a separare l'importante dall'irrilevante.

Leggi altre notizie correlate:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
Affari Notizie Tecnologia
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
3 Maggio 2024
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
Mercati Notizie Tecnologia
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
3 Maggio 2024
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
Mercati Notizie Tecnologia
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
3 Maggio 2024
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
Affari Notizie Tecnologia
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
3 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.