12. Juni, 2023

Top 30+ transformatormodeller i AI: Hvad de er, og hvordan de fungerer

Udgivet: 12. juni 2023 kl. 6 Opdateret: 52. juni 12 kl. 2023

Redigeret og faktatjekket: 12. juni 2023 kl. 6

I de seneste måneder er der dukket adskillige Transformer-modeller op i AI, hver med unikke og til tider morsomme navne. Disse navne giver dog muligvis ikke meget indsigt i, hvad disse modeller rent faktisk gør. Denne artikel har til formål at give en omfattende og ligetil liste over de mest populære Transformer-modeller. Det vil klassificere disse modeller og også introducere vigtige aspekter og innovationer inden for Transformer-familien. Toplisten vil dække modeller uddannet gennem selv-superviseret læring, som BERT eller GPT-3, samt modeller, der gennemgår yderligere træning med menneskelig involvering, såsom InstructGPT model brugt af ChatGPT.

Pro Tips
Denne vejledning er designet til at give omfattende viden og praktiske færdigheder i hurtig teknik for begyndere til avancerede elever.
Der er mange kurser tilgængelig for enkeltpersoner, der ønsker at lære mere om AI og dets relaterede teknologier.
Tag et kig på top 10+ AI acceleratorer som forventes at føre markedet med hensyn til ydeevne.

Indholdsfortegnelse

Hvad er transformere i AI?
Hvad er indkodere og dekodere i AI?
Hvad er opmærksomhedslag i AI?
Hvad er finjusterede modeller i AI?
Hvorfor er Transformers fremtiden for AI?
3 typer fortræningsarkitekturer
8 typer opgaver for præ-trænede modeller
Top 30+ transformatorer i AI
Ofte Stillede Spørgsmål

Hvad er transformere i AI?

Transformere er en type dyb læringsmodeller, der blev introduceret i et forskningspapir kaldet "Opmærksomhed er alt hvad du behøver” af Google-forskere i 2017. Denne artikel har vundet enorm anerkendelse og har akkumuleret over 38,000 citater på bare fem år.

Den originale Transformer-arkitektur er en specifik form for encoder-dekoder-modeller, der havde vundet popularitet før introduktionen. Disse modeller var overvejende baseret på LSTM og andre variationer af tilbagevendende neurale netværk (RNN'er), hvor opmærksomhed blot er en af de anvendte mekanismer. Transformer-papiret foreslog imidlertid en revolutionær idé om, at opmærksomhed kunne tjene som den eneste mekanisme til at etablere afhængigheder mellem input og output.

Hvad er transformere i AI? — Kredit: dominodatalab.com

I forbindelse med Transformers består inputtet af en sekvens af tokens, som kan være ord eller underord i naturlig sprogbehandling (NLP). Underord bruges almindeligvis i NLP-modeller for at løse problemet med ord, der ikke er i ordforrådet. Indkoderens output producerer en fastdimensionel repræsentation for hvert token sammen med en separat indlejring for hele sekvensen. Dekoderen tager koderens output og genererer en sekvens af tokens som output.

Siden offentliggørelsen af Transformer-papiret har populære modeller som BERTI , GPT har overtaget aspekter af den originale arkitektur, enten ved hjælp af encoder- eller dekoderkomponenter. Den vigtigste lighed mellem disse modeller ligger i lagarkitekturen, som inkorporerer selvopmærksomhedsmekanismer og feed-forward-lag. I Transformers krydser hvert input-token sin egen vej gennem lagene, mens det opretholder direkte afhængigheder med hvert andet token i inputsekvensen. Denne unikke funktion giver mulighed for parallel og effektiv beregning af kontekstuelle token-repræsentationer, en funktion, der ikke er mulig med sekventielle modeller som RNN'er.

Selvom denne artikel kun ridser overfladen af Transformer-arkitekturen, giver den et indblik i dens grundlæggende aspekter. For en mere omfattende forståelse anbefaler vi at henvise til det originale forskningspapir eller The Illustrated Transformer-indlægget.

Hvad er indkodere og dekodere i AI?

Forestil dig, at du har to modeller, en koder og en dekoder, arbejder sammen som et hold. Indkoderen tager et input og gør det til en vektor med fast længde. Derefter tager dekoderen den vektor og transformerer den til en outputsekvens. Disse modeller er trænet sammen for at sikre, at output matcher input så tæt som muligt.

Både indkoderen og dekoderen havde flere lag. Hvert lag i koderen havde to underlag: et multi-head selvopmærksomhedslag og et simpelt feed forward-netværk. Selvopmærksomhedslaget hjælper hvert token i input med at forstå relationerne til alle de andre tokens. Disse underlag har også en restforbindelse og en lagnormalisering for at gøre indlæringsprocessen glattere.

Dekoderens multihoved selvopmærksomhedslag fungerer lidt anderledes end den i encoderen. Det maskerer tokens til højre for det token, det fokuserer på. Dette sikrer, at dekoderen kun ser på de tokens, der kommer før den, den forsøger at forudsige. Denne maskerede opmærksomhed med flere hoveder hjælper dekoderen med at generere nøjagtige forudsigelser. Derudover inkluderer dekoderen et andet underlag, som er et multi-head opmærksomhedslag over alle output fra koderen.

Det er vigtigt at bemærke, at disse specifikke detaljer er blevet ændret i forskellige varianter af Transformer-modellen. Modeller som BERT og GPTfor eksempel er baseret på enten encoder- eller dekoderaspektet af den originale arkitektur.

Hvad er opmærksomhedslag i AI?

I den modelarkitektur, vi diskuterede tidligere, er opmærksomhedslagene med flere hoveder de særlige elementer, der gør den kraftfuld. Men hvad er opmærksomhed egentlig? Tænk på det som en funktion, der knytter et spørgsmål til et sæt information og giver et output. Hvert token i inputtet har en forespørgsel, nøgle og værdi tilknyttet. Outputrepræsentationen af hvert token beregnes ved at tage en vægtet sum af værdierne, hvor vægten for hver værdi bestemmes af, hvor godt den matcher forespørgslen.

Transformere bruger en kompatibilitetsfunktion kaldet skaleret punktprodukt til at beregne disse vægte. Det interessante ved opmærksomhed i Transformers er, at hvert token går gennem sin egen beregningsvej, hvilket giver mulighed for parallel beregning af alle tokens i inputsekvensen. Det er simpelthen flere opmærksomhedsblokke, der uafhængigt beregner repræsentationer for hver token. Disse repræsentationer kombineres derefter for at skabe den endelige repræsentation af tokenet.

Sammenlignet med andre typer netværk som tilbagevendende og konvolutionerende netværk, opmærksomhedslag har et par fordele. De er beregningseffektive, hvilket betyder, at de kan behandle information hurtigt. De har også højere tilslutningsmuligheder, hvilket er nyttigt til at fange langsigtede forhold i sekvenser.

Hvad er finjusterede modeller i AI?

Fundamentmodeller er kraftfulde modeller, der er trænet på en stor mængde generelle data. De kan derefter tilpasses eller finjusteres til specifikke opgaver ved at træne dem på et mindre sæt af målspecifikke data. Denne tilgang, populariseret af BERT papir, har ført til dominansen af Transformer-baserede modeller i sprogrelaterede maskinlæringsopgaver.

I tilfælde af modeller som BERT producerer de repræsentationer af input-tokens, men udfører ikke specifikke opgaver på egen hånd. For at gøre dem nyttige, yderligere neurale lag tilføjes ovenpå, og modellen trænes ende-til-ende, en proces kendt som finjustering. Dog med generative modeller ligesom GPT, er tilgangen lidt anderledes. GPT er en dekodersprogmodel trænet til at forudsige det næste ord i en sætning. Ved at træne på enorme mængder webdata, GPT kan generere rimelige output baseret på inputforespørgsler eller prompter.

For at gøre GPT mere nyttigt, OpenAI forskere udviklet InstruereGPT, som er trænet til at følge menneskelige instruktioner. Dette opnås ved finjustering GPT ved hjælp af menneskemærkede data fra forskellige opgaver. InstruereGPT er i stand til at udføre en bred vifte af opgaver og bruges af populære motorer som ChatGPT.

Finjustering kan også bruges til at skabe varianter af fundamentmodeller optimeret til specifikke formål ud over sprogmodellering. For eksempel er der modeller, der er finjusteret til semantisk-relaterede opgaver som tekstklassificering og søgegenfinding. Derudover er transformatorkodere blevet finjusteret med succes inden for multi-task læringsrammer at udføre flere semantiske opgaver ved hjælp af en enkelt delt model.

I dag bruges finjustering til at skabe versioner af fundamentmodeller, som kan bruges af et stort antal brugere. Processen involverer at generere svar på input prompter og få mennesker til at rangere resultaterne. Denne ranking bruges til at træne en belønningsmodel, som tildeler point til hvert output. Forstærkende læring med menneskelig feedback er så ansat til at videreuddanne modellen.

Hvorfor er Transformers fremtiden for AI?

Transformers, en type kraftfuld model, blev først demonstreret inden for sprogoversættelse. Men forskerne indså hurtigt, at Transformers kunne bruges til forskellige sprogrelaterede opgaver ved at træne dem på en stor mængde umærket tekst og derefter finjustere dem på et mindre sæt mærkede data. Denne tilgang tillod Transformers at fange betydelig viden om sprog.

Transformer-arkitekturen, der oprindeligt er designet til sprogopgaver, er også blevet anvendt til andre applikationer som f.eks generere billeder, lyd, musik og endda handlinger. Dette har gjort Transformers til en nøglekomponent inden for generativ AI, som er at ændre forskellige aspekter af samfundet.

Tilgængeligheden af værktøjer og rammer som f.eks PyTorch , TensorFlow har spillet en afgørende rolle i den udbredte anvendelse af Transformer-modeller. Virksomheder som Huggingface har bygget deres forretning omkring ideen af kommercialisering af open source Transformer-biblioteker og specialiseret hardware som NVIDIAs Hopper Tensor Cores har yderligere accelereret trænings- og inferenshastigheden for disse modeller.

En bemærkelsesværdig anvendelse af Transformers er ChatGPT, en chatbot udgivet af OpenAI. Den blev utrolig populær og nåede ud til millioner af brugere på kort tid. OpenAI har også annonceret udgivelsen af GPT-4, en mere kraftfuld version, der er i stand til at opnå menneskelignende præstationer i opgaver som f.eks medicinske og juridiske eksamener.

Effekten af Transformers inden for kunstig intelligens og deres brede vifte af applikationer er ubestridelig. De har forvandlet vejen vi nærmer os sprogrelaterede opgaver og baner vejen for nye fremskridt inden for generativ AI.

3 typer fortræningsarkitekturer

Transformer-arkitekturen, der oprindeligt bestod af en Encoder og en Decoder, har udviklet sig til at inkludere forskellige variationer baseret på specifikke behov. Lad os nedbryde disse variationer i enkle vendinger.

Encoder fortræning: Disse modeller fokuserer på at forstå hele sætninger eller passager. Under fortræning bruges koderen til at rekonstruere maskerede tokens i inputsætningen. Dette hjælper modellen med at lære at forstå den overordnede kontekst. Sådanne modeller er nyttige til opgaver som tekstklassificering, indeslutning og uddrag af spørgsmålssvar.
Dekoder fortræning: Dekodermodeller er trænet til at generere det næste token baseret på den tidligere sekvens af tokens. De er kendt som auto-regressive sprogmodeller. Selvopmærksomhedslagene i dekoderen kan kun få adgang til tokens før et givet token i sætningen. Disse modeller er ideelle til opgaver, der involverer tekstgenerering.
Transformer (Encoder-Decoder) Fortræning: Denne variation kombinerer både encoder- og dekoderkomponenterne. Encoderens selvopmærksomhedslag kan få adgang til alle inputtokens, mens dekoderens selvopmærksomhedslag kun kan få adgang til tokens før et givet token. Denne arkitektur gør det muligt for dekoderen at bruge de repræsentationer, som indkoderen har lært. Encoder-dekoder-modeller er velegnede til opgaver som opsummering, oversættelse eller generativ besvarelse af spørgsmål.

Fortræningsmål kan involvere denoising eller kausal sprogmodellering. Disse mål er mere komplekse for encoder-dekoder-modeller sammenlignet med encoder-only eller dekoder-only-modeller. Transformer-arkitekturen har forskellige variationer afhængigt af modellens fokus. Uanset om det er at forstå hele sætninger, generere tekst eller kombinere begge dele til forskellige opgaver, tilbyder Transformers fleksibilitet til at håndtere forskellige sprogrelaterede udfordringer.

8 typer opgaver for præ-trænede modeller

Når vi træner en model, skal vi give den en opgave eller et mål at lære af. Der er forskellige opgaver inden for naturlig sprogbehandling (NLP), der kan bruges til fortræning af modeller. Lad os nedbryde nogle af disse opgaver i enkle vendinger:

Sprogmodellering (LM): Modellen forudsiger det næste token i en sætning. Den lærer at forstå sammenhængen og generere sammenhængende sætninger.
Causal Language Modeling: Modellen forudsiger det næste token i en tekstsekvens efter en venstre-til-højre rækkefølge. Det er som en fortællemodel, der genererer sætninger et ord ad gangen.
Præfikssprogmodellering: Modellen adskiller en 'præfiks'-sektion fra hovedsekvensen. Den kan behandle ethvert token inden for præfikset og genererer derefter resten af sekvensen autoregressivt.
Masked Language Modeling (MLM): Nogle tokens i inputsætningerne er maskerede, og modellen forudsiger de manglende tokens baseret på den omgivende kontekst. Den lærer at udfylde de tomme felter.
Permuteret sprogmodellering (PLM): Modellen forudsiger det næste token baseret på en tilfældig permutation af inputsekvensen. Den lærer at håndtere forskellige rækkefølger af tokens.
Denoising Autoencoder (DAE): Modellen tager et delvist beskadiget input og sigter mod at gendanne det originale, uforvrængede input. Den lærer at håndtere støj eller manglende dele af teksten.
Replaced Token Detection (RTD): Modellen registrerer, om et token kommer fra den originale tekst eller en genereret version. Den lærer at identificere erstattede eller manipulerede tokens.
Næste sætningsforudsigelse (NSP): Modellen lærer at skelne om to inputsætninger er kontinuerlige segmenter fra træningsdataene. Den forstår forholdet mellem sætninger.

Disse opgaver hjælper modellen med at lære sprogets struktur og betydning. Ved at fortræne disse opgaver får modellerne en god sprogforståelse, før de finjusteres til specifikke applikationer.

Top 30+ transformatorer i AI

Navn	Foruddannet arkitektur	Opgaver	Anvendelse	Udviklet af
ALBERT	Encoder	MLM/NSP	Samme som BERT	Google
Alpaca	Dekoder	LM	Tekstgenerering og klassifikationsopgaver	Stanford
AlphaFold	Encoder	Forudsigelse af proteinfoldning	Proteinfoldning	Deep Mind
Antropisk assistent (se også)	Dekoder	LM	Fra generel dialog til kodeassistent.	Antropisk
BART	Encoder/Dekoder	DAE	Tekstgenerering og tekstforståelsesopgaver	Facebook
BERTI	Encoder	MLM/NSP	Sprogforståelse og besvarelse af spørgsmål	Google
BlenderBot 3	Dekoder	LM	Tekstgenerering og tekstforståelsesopgaver	Facebook
BLOOM	Dekoder	LM	Tekstgenerering og tekstforståelsesopgaver	Big Science/Huggingface
ChatGPT	Dekoder	LM	Dialog agenter	OpenAI
Chinchilla	Dekoder	LM	Tekstgenerering og tekstforståelsesopgaver	Deep Mind
CLIP	Encoder		Billede/objektklassificering	OpenAI
CTRL	Dekoder		Kontrollerbar tekstgenerering	Salesforce
DALL-E	Dekoder	Forudsigelse af billedtekst	Tekst til billede	OpenAI
DALL-E-2	Encoder/Dekoder	Forudsigelse af billedtekst	Tekst til billede	OpenAI
DeBERTa	Dekoder	MLM	Samme som BERT	microsoft
Beslutningstransformere	Dekoder	Forudsigelse af næste handling	Generel RL (forstærkende læringsopgaver)	Google/UC Berkeley/FAIR
DialoGPT	Dekoder	LM	Tekstgenerering i dialogindstillinger	microsoft
DistilBERT	Encoder	MLM/NSP	Sprogforståelse og besvarelse af spørgsmål	Knusende ansigt
DQ-BART	Encoder/Dekoder	DAE	Tekstgenerering og forståelse	Amazon
dukke	Dekoder	LM	Tekstgenerering og klassifikationsopgaver	Databricks, Inc
ERNIE	Encoder	MLM	Videnintensive relaterede opgaver	Forskellige kinesiske institutioner
Flamingo	Dekoder	Forudsigelse af billedtekst	Tekst til billede	Deep Mind
Galactica	Dekoder	LM	Videnskabelig QA, matematisk ræsonnement, opsummering, dokumentgenerering, forudsigelse af molekylære egenskaber og entitetsekstraktion.	Meta
SVÆVE	Encoder	Forudsigelse af billedtekst	Tekst til billede	OpenAI
GPT-3.5	Dekoder	LM	Dialog og generelt sprog	OpenAI
GPTInstruere	Dekoder	LM	Videntunge dialog- eller sprogopgaver	OpenAI
HTML	Encoder/Dekoder	DAE	Sprogmodel, der tillader struktureret HTML-prompt	Facebook
Billede	T5	Forudsigelse af billedtekst	Tekst til billede	Google
LAMDA	Dekoder	LM	Generel sprogmodellering	Google
LLaMA	Dekoder	LM	Commonsense-ræsonnement, Spørgsmålsbesvarelse, Kodegenerering og læseforståelse.	Meta
Minerva	Dekoder	LM	Matematisk ræsonnement	Google
Håndflade	Dekoder	LM	Sprogforståelse og -generering	Google
ROBERTA	Encoder	MLM	Sprogforståelse og besvarelse af spørgsmål	UW/Google
spurv	Dekoder	LM	Dialogagenter og generelle sproggenereringsapplikationer som Q&A	Deep Mind
Stabil Diffusion	Encoder/Dekoder	Billedtekst Forudsigelse	Tekst til billede	LMU München + Stability.ai + Eleuther.ai
Vicuna	Dekoder	LM	Dialog agenter	UC Berkeley, CMU, Stanford, UC San Diego og MBZUAI

Ofte Stillede Spørgsmål

Transformere i AI er en type deep learning arkitektur der har ændret naturlig sprogbehandling og andre opgaver. De bruger selvopmærksomhedsmekanismer til at fange relationer mellem ord i en sætning, hvilket gør dem i stand til at forstå og generere menneskelignende tekst.

Indkodere og dekodere er komponenter, der almindeligvis anvendes i sekvens-til-sekvens-modeller. Indkodere behandler inputdata, såsom tekst eller billeder, og konverterer dem til en komprimeret repræsentation, mens dekodere genererer outputdata baseret på den kodede repræsentation, hvilket muliggør opgaver som sprogoversættelse eller billedtekstning.

Opmærksomhedslag er komponenter, der bruges i neurale netværk, især i Transformer-modeller. De gør det muligt for modellen selektivt at fokusere på forskellige dele af inputsekvensen, ved at tildele vægte til hvert element baseret på dets relevans, hvilket giver mulighed for effektivt at fange afhængigheder og relationer mellem elementer.

Finjusterede modeller refererer til fortrænede modeller, der er blevet videreuddannet på en specifik opgave eller datasæt for at forbedre deres ydeevne og tilpasse dem til de specifikke krav til den pågældende opgave. Denne finjusteringsproces involverer justering af modellens parametre for at optimere dens forudsigelser og gøre den mere specialiseret til målopgaven.

Transformere betragtes som fremtiden for kunstig intelligens, fordi de har demonstreret enestående ydeevne inden for en bred vifte af opgaver, herunder naturlig sprogbehandling, billedgenerering og mere. Deres evne til at opfange afhængigheder på lang rækkevidde og behandle sekventielle data effektivt gør dem meget tilpasningsdygtige og effektive til forskellige applikationer, hvilket baner vejen for fremskridt inden for generativ AI og revolutionerer mange aspekter af samfundet.

De mest berømte transformermodeller i AI inkluderer BERT (Bidirectional Encoder Representations from Transformers), GPT (Generativ Pre-trained Transformer) og T5 (Text-to-Text Transfer Transformer). Disse modeller har opnået bemærkelsesværdige resultater i forskellige naturlige sprogbehandlingsopgaver og har vundet betydelig popularitet i AI-forskningssamfundet.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov