12 Giugno 2023

I migliori 30+ modelli di Transformer nell'IA: cosa sono e come funzionano

Pubblicato: 12 giugno 2023 alle 6:52 Aggiornato: 12 giugno 2023 alle 6:52

Modificato e verificato: 12 giugno 2023 alle 6:52

Negli ultimi mesi, nell'IA sono emersi numerosi modelli Transformer, ciascuno con nomi unici e talvolta divertenti. Tuttavia, questi nomi potrebbero non fornire molte informazioni su ciò che effettivamente fanno questi modelli. Questo articolo mira a fornire un elenco completo e diretto dei modelli Transformer più popolari. Classificherà questi modelli e introdurrà anche importanti aspetti e innovazioni all'interno della famiglia Transformer. L'elenco in alto coprirà modelli addestrati attraverso l'apprendimento autosuperato, come BERT o GPT-3, nonché modelli sottoposti a formazione aggiuntiva con coinvolgimento umano, come InstructGPT modello utilizzato da ChatGPT.

Suggerimenti Pro
Questa guida è progettato per fornire conoscenze complete e abilità pratiche nell'ingegneria rapida per principianti e studenti avanzati.
Ci sono molti corsi disponibile per le persone che vogliono saperne di più sull'intelligenza artificiale e le sue tecnologie correlate.
Date un'occhiata al i primi 10+ acceleratori AI che dovrebbero guidare il mercato in termini di prestazioni.

Sommario

Cosa sono i Transformer nell'IA?
Cosa sono i codificatori e i decodificatori nell'IA?
Cosa sono i livelli di attenzione nell'IA?
Cosa sono i modelli ottimizzati nell'IA?
Perché i Transformer sono il futuro dell'IA?
3 tipi di architetture di pretraining
8 tipi di attività per modelli preaddestrati
I migliori 30+ Transformer nell'intelligenza artificiale
FAQ

Cosa sono i Transformer nell'IA?

I trasformatori sono un tipo di modelli di apprendimento profondo che sono stati introdotti in un documento di ricerca intitolato "L'attenzione è tutto ciò di cui hai bisogno” dai ricercatori di Google nel 2017. Questo documento ha ottenuto un enorme riconoscimento, accumulando oltre 38,000 citazioni in soli cinque anni.

L'architettura Transformer originale è una forma specifica di modelli di codificatore-decodificatore che aveva guadagnato popolarità prima della sua introduzione. Questi modelli si basavano prevalentemente su LSTM e altre varianti di reti neurali ricorrenti (RNN), essendo l'attenzione solo uno dei meccanismi utilizzati. Tuttavia, l'articolo di Transformer ha proposto un'idea rivoluzionaria secondo cui l'attenzione potrebbe servire come unico meccanismo per stabilire dipendenze tra input e output.

Cosa sono i Transformer nell'IA? — Credito: dominodatalab.com

Nel contesto di Transformers, l'input è costituito da una sequenza di token, che possono essere parole o sottoparole nell'elaborazione del linguaggio naturale (NLP). Le parole secondarie sono comunemente impiegate nei modelli di PNL per affrontare il problema delle parole fuori dal vocabolario. L'output del codificatore produce una rappresentazione a dimensione fissa per ogni token, insieme a un'incorporamento separato per l'intera sequenza. Il decoder prende l'output del codificatore e genera una sequenza di token come output.

Dalla pubblicazione della carta Transformer, i modelli popolari come BERTA ed GPT hanno adottato aspetti dell'architettura originale, utilizzando componenti codificatori o decodificatori. La somiglianza chiave tra questi modelli risiede nell’architettura a strati, che incorpora meccanismi di auto-attenzione e strati feed-forward. In Transformers, ogni token di input percorre il proprio percorso attraverso i livelli mantenendo dipendenze dirette con ogni altro token nella sequenza di input. Questa caratteristica unica consente il calcolo parallelo ed efficiente delle rappresentazioni di token contestuali, una capacità non fattibile con modelli sequenziali come gli RNN.

Mentre questo articolo graffia solo la superficie dell'architettura Transformer, fornisce uno sguardo ai suoi aspetti fondamentali. Per una comprensione più completa, si consiglia di fare riferimento al documento di ricerca originale o al post di The Illustrated Transformer.

Cosa sono i codificatori e i decodificatori nell'IA?

Immagina di avere due modelli, un codificatore e un decodificatore, lavorare insieme come una squadra. Il codificatore prende un input e lo trasforma in un vettore di lunghezza fissa. Quindi, il decodificatore prende quel vettore e lo trasforma in una sequenza di output. Questi modelli vengono addestrati insieme per assicurarsi che l'output corrisponda il più possibile all'input.

Sia il codificatore che il decodificatore avevano diversi livelli. Ogni livello nel codificatore aveva due livelli secondari: un livello di auto-attenzione multi-head e una semplice rete di feed forward. Il livello di auto-attenzione aiuta ogni token nell'input a comprendere le relazioni con tutti gli altri token. Questi sottolivelli hanno anche una connessione residua e una normalizzazione del livello per rendere più agevole il processo di apprendimento.

Multitesta del decoder strato di auto-attenzione funziona in modo leggermente diverso da quello nell'encoder. Maschera i token a destra del token su cui si sta concentrando. Ciò garantisce che il decodificatore guardi solo i token che vengono prima di quello che sta cercando di prevedere. Questa attenzione multi-testa mascherata aiuta il decodificatore a generare previsioni accurate. Inoltre, il decodificatore include un altro sottolivello, che è uno strato di attenzione multi-head su tutte le uscite dal codificatore.

È importante notare che questi dettagli specifici sono stati modificati in diverse varianti del modello Transformer. Modelli come BERT e GPT, ad esempio, si basano sull'aspetto codificatore o decodificatore dell'architettura originale.

Cosa sono i livelli di attenzione nell'IA?

Nell'architettura del modello che abbiamo discusso in precedenza, i livelli di attenzione a più teste sono gli elementi speciali che lo rendono potente. Ma cos'è esattamente l'attenzione? Pensala come una funzione che associa una domanda a un insieme di informazioni e fornisce un output. A ogni token nell'input sono associati una query, una chiave e un valore. La rappresentazione dell'output di ogni token viene calcolata prendendo una somma ponderata dei valori, dove il peso per ogni valore è determinato da quanto bene corrisponde alla query.

I trasformatori utilizzano una funzione di compatibilità chiamata prodotto scalare per calcolare questi pesi. La cosa interessante dell'attenzione in Transformers è che ogni token passa attraverso il proprio percorso di calcolo, consentendo il calcolo parallelo di tutti i token nella sequenza di input. Sono semplicemente più blocchi di attenzione che calcolano indipendentemente le rappresentazioni per ogni token. Queste rappresentazioni vengono poi combinate per creare la rappresentazione finale del token.

Rispetto ad altri tipi di reti come ricorrenti e reti convoluzionali, i livelli di attenzione presentano alcuni vantaggi. Sono computazionalmente efficienti, il che significa che possono elaborare rapidamente le informazioni. Hanno anche una maggiore connettività, che è utile per catturare relazioni a lungo termine in sequenze.

Cosa sono i modelli ottimizzati nell'IA?

Modelli di fondazione sono modelli potenti che vengono addestrati su una grande quantità di dati generali. Possono quindi essere adattati o messi a punto per compiti specifici addestrandoli su un set più piccolo di dati specifici del target. Questo approccio, reso popolare dal Carta BERT, ha portato al predominio dei modelli basati su Transformer nelle attività di apprendimento automatico relative al linguaggio.

Nel caso di modelli come BERT, producono rappresentazioni di token di input ma non svolgono compiti specifici da soli. Per renderli utili, aggiuntivi strati neurali vengono aggiunti in cima e il modello viene addestrato end-to-end, un processo noto come fine tuning. Tuttavia, con modelli generativi piace GPT, l'approccio è leggermente diverso. GPT è un modello linguistico di decodificazione addestrato a prevedere la parola successiva in una frase. Formandosi su grandi quantità di dati web, GPT può generare output ragionevoli basati su query o suggerimenti di input.

Per rendere GPT più utile, OpenAI i ricercatori hanno sviluppato istruireGPT, che è addestrato a seguire le istruzioni umane. Ciò si ottiene mediante la messa a punto GPT utilizzando dati etichettati da esseri umani provenienti da varie attività. IstruireGPT è in grado di eseguire un'ampia gamma di compiti e viene utilizzato da motori popolari come ChatGPT.

La messa a punto può essere utilizzata anche per creare varianti di modelli di fondazione ottimizzati per scopi specifici oltre la modellazione del linguaggio. Ad esempio, ci sono modelli ottimizzati per attività legate alla semantica come la classificazione del testo e il recupero della ricerca. Inoltre, gli encoder del trasformatore sono stati messi a punto con successo all'interno del multi-task quadri di apprendimento per eseguire più attività semantiche utilizzando un unico modello condiviso.

Oggi, il fine tuning viene utilizzato per creare versioni di modelli di base che possono essere utilizzate da un gran numero di utenti. Il processo prevede la generazione di risposte all'input suggerimenti e chiedere agli umani di classificare i risultati. Questa classifica viene utilizzata per addestrare a modello di ricompensa, che assegna punteggi a ogni output. Apprendimento per rinforzo con feedback umano viene quindi impiegato per addestrare ulteriormente il modello.

Perché i Transformer sono il futuro dell'IA?

I trasformatori, un tipo di modello potente, sono stati dimostrati per la prima volta nel campo della traduzione linguistica. Tuttavia, i ricercatori si sono presto resi conto che i Transformer potevano essere utilizzati per varie attività legate alla lingua addestrandoli su una grande quantità di testo non etichettato e quindi perfezionandoli su un insieme più piccolo di dati etichettati. Questo approccio ha permesso a Transformers di acquisire una conoscenza significativa del linguaggio.

L'architettura Transformer, originariamente progettata per attività linguistiche, è stata applicata anche ad altre applicazioni come generazione di immagini, audio, musica e persino azioni. Ciò ha reso Transformers un componente chiave nel campo dell'IA generativa, che sta cambiando vari aspetti della società.

La disponibilità di strumenti e framework come PyTorch ed TensorFlow ha svolto un ruolo cruciale nell'adozione diffusa dei modelli Transformer. Aziende come Huggingface hanno costruito il loro affari attorno all'idea della commercializzazione di librerie Transformer open source e hardware specializzato come gli Hopper Tensor Core di NVIDIA ha ulteriormente accelerato la velocità di addestramento e inferenza di questi modelli.

Un'applicazione notevole di Transformers è ChatGPT, un chatbot rilasciato da OpenAI. È diventato incredibilmente popolare, raggiungendo milioni di utenti in un breve periodo. OpenAI ha anche annunciato il rilascio di GPT-4, una versione più potente in grado di raggiungere prestazioni simili a quelle umane in compiti come esami medici e legali.

L'impatto dei Transformers nel campo dell'IA e della loro vasta gamma di applicazioni è innegabile. Loro hanno trasformato il modo ci avviciniamo alle attività legate alla lingua e stiamo aprendo la strada a nuovi progressi nell'IA generativa.

3 tipi di architetture di pretraining

L'architettura del Transformer, originariamente costituita da un Encoder e un Decoder, si è evoluta fino a comprendere diverse varianti in base a specifiche esigenze. Analizziamo queste variazioni in termini semplici.

Addestramento preliminare dell'encoder: Questi modelli si concentrano sulla comprensione di frasi o passaggi completi. Durante il pretraining, il codificatore viene utilizzato per ricostruire i token mascherati nella frase di input. Questo aiuta il modello a imparare a comprendere il contesto generale. Tali modelli sono utili per attività come la classificazione del testo, l'implicazione e la risposta a domande estrattive.
Addestramento preliminare del decodificatore: i modelli di decoder vengono addestrati per generare il token successivo in base alla sequenza di token precedente. Sono noti come modelli linguistici autoregressivi. Gli strati di auto-attenzione nel decodificatore possono accedere solo ai token prima di un dato token nella frase. Questi modelli sono ideali per attività che comportano la generazione di testo.
Trasformatore (codificatore-decodificatore) Preaddestramento: Questa variazione combina i componenti dell'encoder e del decoder. I livelli di auto-attenzione del codificatore possono accedere a tutti i token di input, mentre i livelli di auto-attenzione del decodificatore possono accedere solo ai token prima di un dato token. Questa architettura consente al decodificatore di utilizzare le rappresentazioni apprese dal codificatore. I modelli codificatore-decodificatore sono adatti per attività come riepilogo, traduzione o risposta generativa a domande.

Gli obiettivi di pre-formazione possono comportare il denoising o la modellazione del linguaggio causale. Questi obiettivi sono più complessi per i modelli encoder-decoder rispetto ai modelli solo encoder o solo decoder. L'architettura Transformer ha diverse varianti a seconda del focus del modello. Che si tratti di comprendere frasi complete, generare testo o combinare entrambi per varie attività, Transformers offre flessibilità nell'affrontare diverse sfide legate alla lingua.

8 tipi di attività per modelli preaddestrati

Durante l'addestramento di un modello, dobbiamo assegnargli un compito o un obiettivo da cui imparare. Esistono varie attività nell'elaborazione del linguaggio naturale (NLP) che possono essere utilizzate per i modelli di pre-addestramento. Analizziamo alcune di queste attività in termini semplici:

Language Modeling (LM): il modello prevede il token successivo in una frase. Impara a comprendere il contesto e a generare frasi coerenti.
Modellazione del linguaggio causale: il modello prevede il token successivo in una sequenza di testo, seguendo un ordine da sinistra a destra. È come un modello narrativo che genera frasi una parola alla volta.
Modellazione del linguaggio dei prefissi: il modello separa una sezione "prefisso" dalla sequenza principale. Può occuparsi di qualsiasi token all'interno del prefisso e quindi generare il resto della sequenza in modo autoregressivo.
Masked Language Modeling (MLM): alcuni token nelle frasi di input sono mascherati e il modello prevede i token mancanti in base al contesto circostante. Impara a riempire gli spazi vuoti.
Permuted Language Modeling (PLM): il modello prevede il token successivo in base a una permutazione casuale della sequenza di input. Impara a gestire diversi ordini di token.
Denoising Autoencoder (DAE): il modello prende un input parzialmente danneggiato e mira a recuperare l'input originale non distorto. Impara a gestire il rumore o le parti mancanti del testo.
Replaced Token Detection (RTD): il modello rileva se un token proviene dal testo originale o da una versione generata. Impara a identificare i token sostituiti o manipolati.
Next Sentence Prediction (NSP): il modello apprende a distinguere se due frasi di input sono segmenti continui dai dati di addestramento. Comprende la relazione tra le frasi.

Questi compiti aiutano il modello ad apprendere la struttura e il significato del linguaggio. Grazie al preaddestramento su queste attività, i modelli acquisiscono una buona comprensione del linguaggio prima di essere perfezionati per applicazioni specifiche.

I migliori 30+ Transformer nell'intelligenza artificiale

Nome	Architettura di preformazione	Task	Applicazioni	Sviluppato da
ALBERT	Codificatore	MLM/NSP	Come BERT	Google
Alpaca	decoder	LM	Attività di generazione e classificazione del testo	Stanford
AlphaFold	Codificatore	Previsione del ripiegamento delle proteine	Ripiegamento delle proteine	Deepmind
Assistente Antropico (vedi anche)	decoder	LM	Dalla finestra di dialogo generale all'assistente di codice.	Antropico
BART	Codificatore/Decodificatore	DAE	Attività di generazione e comprensione del testo	Facebook
BERTA	Codificatore	MLM/NSP	Comprensione della lingua e risposta alle domande	Google
Blenderbot 3	decoder	LM	Attività di generazione e comprensione del testo	Facebook
FIORITURA	decoder	LM	Attività di generazione e comprensione del testo	Grande scienza/Huggingface
ChatGPT	decoder	LM	Agenti di dialogo	OpenAI
cincilla	decoder	LM	Attività di generazione e comprensione del testo	Deepmind
CLIP	Codificatore		Classificazione immagine/oggetto	OpenAI
CTRL	decoder		Generazione di testo controllabile	Salesforce
DALL-E	decoder	Previsione dei sottotitoli	Da testo a immagine	OpenAI
DALL-MI-2	Codificatore/Decodificatore	Previsione dei sottotitoli	Da testo a immagine	OpenAI
DeBERta	decoder	MLM	Come BERT	Microsoft
Trasformatori decisionali	decoder	Prossima azione prevista	Generale RL (compiti di apprendimento di rinforzo)	Google/UC Berkeley/FIERA
DialoGPT	decoder	LM	Generazione del testo nelle impostazioni della finestra di dialogo	Microsoft
DistillBERT	Codificatore	MLM/NSP	Comprensione della lingua e risposta alle domande	Faccina che abbraccia
DQ-BART	Codificatore/Decodificatore	DAE	Generazione e comprensione del testo	Amazon
bambola	decoder	LM	Attività di generazione e classificazione del testo	Databricks, Inc
ERNI	Codificatore	MLM	Attività correlate ad alta intensità di conoscenza	Varie istituzioni cinesi
Fenicottero	decoder	Previsione dei sottotitoli	Da testo a immagine	Deepmind
Galactica	decoder	LM	QA scientifico, ragionamento matematico, riepilogo, generazione di documenti, previsione di proprietà molecolari ed estrazione di entità.	Meta
SCIVOLARE	Codificatore	Previsione dei sottotitoli	Da testo a immagine	OpenAI
GPT-3.5	decoder	LM	Dialogo e linguaggio generale	OpenAI
GPTistruire	decoder	LM	Attività di dialogo o lingua ad alta intensità di conoscenza	OpenAI
HTML	Codificatore/Decodificatore	DAE	Modello di linguaggio che consente prompt HTML strutturati	Facebook
Immagine	T5	Previsione dei sottotitoli	Da testo a immagine	Google
LAMDA	decoder	LM	Modellazione generale del linguaggio	Google
LLaMA	decoder	LM	Ragionamento di buon senso, risposta a domande, generazione di codice e comprensione della lettura.	Meta
Minerva	decoder	LM	Ragionamento matematico	Google
Palma	decoder	LM	Comprensione e generazione del linguaggio	Google
RoBERta	Codificatore	MLM	Comprensione della lingua e risposta alle domande	UW/Google
Passero	decoder	LM	Agenti di dialogo e applicazioni generiche di generazione del linguaggio come domande e risposte	Deepmind
Diffusione stabile	Codificatore/Decodificatore	Previsione dei sottotitoli	Da testo a immagine	LMU Monaco + Stability.ai + Eleuther.ai
Vicuna	decoder	LM	Agenti di dialogo	UC Berkeley, CMU, Stanford, UC San Diego e MBZUAI

FAQ

I trasformatori in AI sono un tipo di architettura di apprendimento profondo che ha cambiato l'elaborazione del linguaggio naturale e altri compiti. Usano meccanismi di auto-attenzione per catturare le relazioni tra le parole in una frase, consentendo loro di comprendere e generare un testo simile a quello umano.

Codificatori e decodificatori sono componenti comunemente usati nei modelli sequenza-sequenza. I codificatori elaborano i dati di input, come testo o immagini, e li convertono in una rappresentazione compressa, mentre i decodificatori generano dati di output basati sulla rappresentazione codificata, consentendo attività come la traduzione in lingua o la didascalia delle immagini.

I livelli di attenzione sono componenti utilizzati in reti neurali, in particolare nei modelli Transformer. Consentono al modello di concentrarsi selettivamente su diverse parti della sequenza di input, assegnando pesi a ciascun elemento in base alla sua rilevanza, consentendo di catturare in modo efficace le dipendenze e le relazioni tra gli elementi.

I modelli ottimizzati si riferiscono a modelli pre-addestrati che sono stati ulteriormente addestrati su un'attività o un set di dati specifici per migliorare le loro prestazioni e adattarli ai requisiti specifici di tale attività. Questo processo di messa a punto comporta la regolazione dei parametri del modello per ottimizzarne le previsioni e renderlo più specializzato per l'attività di destinazione.

I trasformatori sono considerati il futuro dell'intelligenza artificiale perché hanno dimostrato prestazioni eccezionali in un'ampia gamma di attività, tra cui l'elaborazione del linguaggio naturale, la generazione di immagini e altro ancora. La loro capacità di acquisire dipendenze a lungo raggio ed elaborare dati sequenziali in modo efficiente li rende altamente adattabili ed efficaci per varie applicazioni, aprendo la strada ai progressi nell'IA generativa e rivoluzionando molti aspetti della società.

I modelli di trasformatori più famosi nell'intelligenza artificiale includono BERT (Rappresentazioni di encoder bidirezionali da trasformatori), GPT (Trasformatore generativo pre-addestrato) e T5 (Trasformatore di trasferimento da testo a testo). Questi modelli hanno ottenuto risultati notevoli in varie attività di elaborazione del linguaggio naturale e hanno guadagnato una notevole popolarità nella comunità di ricerca sull’intelligenza artificiale.

Per saperne di più sull'intelligenza artificiale:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov