AI Wiki Teknologier
12. Juni, 2023

Top 30+ transformatormodeller i AI: Hvad de er, og hvordan de fungerer

I de seneste måneder er der dukket adskillige Transformer-modeller op i AI, hver med unikke og til tider morsomme navne. Disse navne giver dog muligvis ikke meget indsigt i, hvad disse modeller rent faktisk gør. Denne artikel har til formål at give en omfattende og ligetil liste over de mest populære Transformer-modeller. Det vil klassificere disse modeller og også introducere vigtige aspekter og innovationer inden for Transformer-familien. Toplisten vil dække modeller uddannet gennem selv-superviseret læring, som BERT eller GPT-3, samt modeller, der gennemgår yderligere træning med menneskelig involvering, såsom InstructGPT model brugt af ChatGPT.

Credit: Metaverse Post (mpost.io)
Pro Tips
Denne vejledning er designet til at give omfattende viden og praktiske færdigheder i hurtig teknik for begyndere til avancerede elever.
Der er mange kurser tilgængelig for enkeltpersoner, der ønsker at lære mere om AI og dets relaterede teknologier.
Tag et kig på top 10+ AI acceleratorer som forventes at føre markedet med hensyn til ydeevne.

Hvad er transformere i AI?

Transformere er en type dyb læringsmodeller, der blev introduceret i et forskningspapir kaldet "Opmærksomhed er alt hvad du behøver” af Google-forskere i 2017. Denne artikel har vundet enorm anerkendelse og har akkumuleret over 38,000 citater på bare fem år.

Den originale Transformer-arkitektur er en specifik form for encoder-dekoder-modeller, der havde vundet popularitet før introduktionen. Disse modeller var overvejende baseret på LSTM og andre variationer af tilbagevendende neurale netværk (RNN'er), hvor opmærksomhed blot er en af ​​de anvendte mekanismer. Transformer-papiret foreslog imidlertid en revolutionær idé om, at opmærksomhed kunne tjene som den eneste mekanisme til at etablere afhængigheder mellem input og output.

Hvad er transformere i AI?
Kredit: dominodatalab.com

I forbindelse med Transformers består inputtet af en sekvens af tokens, som kan være ord eller underord i naturlig sprogbehandling (NLP). Underord bruges almindeligvis i NLP-modeller for at løse problemet med ord, der ikke er i ordforrådet. Indkoderens output producerer en fastdimensionel repræsentation for hvert token sammen med en separat indlejring for hele sekvensen. Dekoderen tager koderens output og genererer en sekvens af tokens som output.

Siden offentliggørelsen af ​​Transformer-papiret har populære modeller som BERTI , GPT har overtaget aspekter af den originale arkitektur, enten ved hjælp af encoder- eller dekoderkomponenter. Den vigtigste lighed mellem disse modeller ligger i lagarkitekturen, som inkorporerer selvopmærksomhedsmekanismer og feed-forward-lag. I Transformers krydser hvert input-token sin egen vej gennem lagene, mens det opretholder direkte afhængigheder med hvert andet token i inputsekvensen. Denne unikke funktion giver mulighed for parallel og effektiv beregning af kontekstuelle token-repræsentationer, en funktion, der ikke er mulig med sekventielle modeller som RNN'er.

Selvom denne artikel kun ridser overfladen af ​​Transformer-arkitekturen, giver den et indblik i dens grundlæggende aspekter. For en mere omfattende forståelse anbefaler vi at henvise til det originale forskningspapir eller The Illustrated Transformer-indlægget.

Hvad er indkodere og dekodere i AI?

Forestil dig, at du har to modeller, en koder og en dekoder, arbejder sammen som et hold. Indkoderen tager et input og gør det til en vektor med fast længde. Derefter tager dekoderen den vektor og transformerer den til en outputsekvens. Disse modeller er trænet sammen for at sikre, at output matcher input så tæt som muligt.

Både indkoderen og dekoderen havde flere lag. Hvert lag i koderen havde to underlag: et multi-head selvopmærksomhedslag og et simpelt feed forward-netværk. Selvopmærksomhedslaget hjælper hvert token i input med at forstå relationerne til alle de andre tokens. Disse underlag har også en restforbindelse og en lagnormalisering for at gøre indlæringsprocessen glattere.

Dekoderens multihoved selvopmærksomhedslag fungerer lidt anderledes end den i encoderen. Det maskerer tokens til højre for det token, det fokuserer på. Dette sikrer, at dekoderen kun ser på de tokens, der kommer før den, den forsøger at forudsige. Denne maskerede opmærksomhed med flere hoveder hjælper dekoderen med at generere nøjagtige forudsigelser. Derudover inkluderer dekoderen et andet underlag, som er et multi-head opmærksomhedslag over alle output fra koderen.

Det er vigtigt at bemærke, at disse specifikke detaljer er blevet ændret i forskellige varianter af Transformer-modellen. Modeller som BERT og GPTfor eksempel er baseret på enten encoder- eller dekoderaspektet af den originale arkitektur.

Hvad er opmærksomhedslag i AI?

I den modelarkitektur, vi diskuterede tidligere, er opmærksomhedslagene med flere hoveder de særlige elementer, der gør den kraftfuld. Men hvad er opmærksomhed egentlig? Tænk på det som en funktion, der knytter et spørgsmål til et sæt information og giver et output. Hvert token i inputtet har en forespørgsel, nøgle og værdi tilknyttet. Outputrepræsentationen af ​​hvert token beregnes ved at tage en vægtet sum af værdierne, hvor vægten for hver værdi bestemmes af, hvor godt den matcher forespørgslen.

Transformere bruger en kompatibilitetsfunktion kaldet skaleret punktprodukt til at beregne disse vægte. Det interessante ved opmærksomhed i Transformers er, at hvert token går gennem sin egen beregningsvej, hvilket giver mulighed for parallel beregning af alle tokens i inputsekvensen. Det er simpelthen flere opmærksomhedsblokke, der uafhængigt beregner repræsentationer for hver token. Disse repræsentationer kombineres derefter for at skabe den endelige repræsentation af tokenet.

Sammenlignet med andre typer netværk som tilbagevendende og konvolutionerende netværk, opmærksomhedslag har et par fordele. De er beregningseffektive, hvilket betyder, at de kan behandle information hurtigt. De har også højere tilslutningsmuligheder, hvilket er nyttigt til at fange langsigtede forhold i sekvenser.

Hvad er finjusterede modeller i AI?

Fundamentmodeller er kraftfulde modeller, der er trænet på en stor mængde generelle data. De kan derefter tilpasses eller finjusteres til specifikke opgaver ved at træne dem på et mindre sæt af målspecifikke data. Denne tilgang, populariseret af BERT papir, har ført til dominansen af ​​Transformer-baserede modeller i sprogrelaterede maskinlæringsopgaver.

I tilfælde af modeller som BERT producerer de repræsentationer af input-tokens, men udfører ikke specifikke opgaver på egen hånd. For at gøre dem nyttige, yderligere neurale lag tilføjes ovenpå, og modellen trænes ende-til-ende, en proces kendt som finjustering. Dog med generative modeller ligesom GPT, er tilgangen lidt anderledes. GPT er en dekodersprogmodel trænet til at forudsige det næste ord i en sætning. Ved at træne på enorme mængder webdata, GPT kan generere rimelige output baseret på inputforespørgsler eller prompter.

For at gøre GPT mere nyttigt, OpenAI forskere udviklet InstruereGPT, som er trænet til at følge menneskelige instruktioner. Dette opnås ved finjustering GPT ved hjælp af menneskemærkede data fra forskellige opgaver. InstruereGPT er i stand til at udføre en bred vifte af opgaver og bruges af populære motorer som ChatGPT.

Finjustering kan også bruges til at skabe varianter af fundamentmodeller optimeret til specifikke formål ud over sprogmodellering. For eksempel er der modeller, der er finjusteret til semantisk-relaterede opgaver som tekstklassificering og søgegenfinding. Derudover er transformatorkodere blevet finjusteret med succes inden for multi-task læringsrammer at udføre flere semantiske opgaver ved hjælp af en enkelt delt model.

I dag bruges finjustering til at skabe versioner af fundamentmodeller, som kan bruges af et stort antal brugere. Processen involverer at generere svar på input prompter og få mennesker til at rangere resultaterne. Denne ranking bruges til at træne en belønningsmodel, som tildeler point til hvert output. Forstærkende læring med menneskelig feedback er så ansat til at videreuddanne modellen.

Hvorfor er Transformers fremtiden for AI?

Transformers, en type kraftfuld model, blev først demonstreret inden for sprogoversættelse. Men forskerne indså hurtigt, at Transformers kunne bruges til forskellige sprogrelaterede opgaver ved at træne dem på en stor mængde umærket tekst og derefter finjustere dem på et mindre sæt mærkede data. Denne tilgang tillod Transformers at fange betydelig viden om sprog.

Transformer-arkitekturen, der oprindeligt er designet til sprogopgaver, er også blevet anvendt til andre applikationer som f.eks generere billeder, lyd, musik og endda handlinger. Dette har gjort Transformers til en nøglekomponent inden for generativ AI, som er at ændre forskellige aspekter af samfundet.

Tilgængeligheden af ​​værktøjer og rammer som f.eks PyTorch , TensorFlow har spillet en afgørende rolle i den udbredte anvendelse af Transformer-modeller. Virksomheder som Huggingface har bygget deres forretning omkring ideen af kommercialisering af open source Transformer-biblioteker og specialiseret hardware som NVIDIAs Hopper Tensor Cores har yderligere accelereret trænings- og inferenshastigheden for disse modeller.

En bemærkelsesværdig anvendelse af Transformers er ChatGPT, en chatbot udgivet af OpenAI. Den blev utrolig populær og nåede ud til millioner af brugere på kort tid. OpenAI har også annonceret udgivelsen af GPT-4, en mere kraftfuld version, der er i stand til at opnå menneskelignende præstationer i opgaver som f.eks medicinske og juridiske eksamener.

Effekten af ​​Transformers inden for kunstig intelligens og deres brede vifte af applikationer er ubestridelig. De har forvandlet vejen vi nærmer os sprogrelaterede opgaver og baner vejen for nye fremskridt inden for generativ AI.

3 typer fortræningsarkitekturer

Transformer-arkitekturen, der oprindeligt bestod af en Encoder og en Decoder, har udviklet sig til at inkludere forskellige variationer baseret på specifikke behov. Lad os nedbryde disse variationer i enkle vendinger.

  1. Encoder fortræning: Disse modeller fokuserer på at forstå hele sætninger eller passager. Under fortræning bruges koderen til at rekonstruere maskerede tokens i inputsætningen. Dette hjælper modellen med at lære at forstå den overordnede kontekst. Sådanne modeller er nyttige til opgaver som tekstklassificering, indeslutning og uddrag af spørgsmålssvar.
  2. Dekoder fortræning: Dekodermodeller er trænet til at generere det næste token baseret på den tidligere sekvens af tokens. De er kendt som auto-regressive sprogmodeller. Selvopmærksomhedslagene i dekoderen kan kun få adgang til tokens før et givet token i sætningen. Disse modeller er ideelle til opgaver, der involverer tekstgenerering.
  3. Transformer (Encoder-Decoder) Fortræning: Denne variation kombinerer både encoder- og dekoderkomponenterne. Encoderens selvopmærksomhedslag kan få adgang til alle inputtokens, mens dekoderens selvopmærksomhedslag kun kan få adgang til tokens før et givet token. Denne arkitektur gør det muligt for dekoderen at bruge de repræsentationer, som indkoderen har lært. Encoder-dekoder-modeller er velegnede til opgaver som opsummering, oversættelse eller generativ besvarelse af spørgsmål.

Fortræningsmål kan involvere denoising eller kausal sprogmodellering. Disse mål er mere komplekse for encoder-dekoder-modeller sammenlignet med encoder-only eller dekoder-only-modeller. Transformer-arkitekturen har forskellige variationer afhængigt af modellens fokus. Uanset om det er at forstå hele sætninger, generere tekst eller kombinere begge dele til forskellige opgaver, tilbyder Transformers fleksibilitet til at håndtere forskellige sprogrelaterede udfordringer.

8 typer opgaver for præ-trænede modeller

Når vi træner en model, skal vi give den en opgave eller et mål at lære af. Der er forskellige opgaver inden for naturlig sprogbehandling (NLP), der kan bruges til fortræning af modeller. Lad os nedbryde nogle af disse opgaver i enkle vendinger:

  1. Sprogmodellering (LM): Modellen forudsiger det næste token i en sætning. Den lærer at forstå sammenhængen og generere sammenhængende sætninger.
  2. Causal Language Modeling: Modellen forudsiger det næste token i en tekstsekvens efter en venstre-til-højre rækkefølge. Det er som en fortællemodel, der genererer sætninger et ord ad gangen.
  3. Præfikssprogmodellering: Modellen adskiller en 'præfiks'-sektion fra hovedsekvensen. Den kan behandle ethvert token inden for præfikset og genererer derefter resten af ​​sekvensen autoregressivt.
  4. Masked Language Modeling (MLM): Nogle tokens i inputsætningerne er maskerede, og modellen forudsiger de manglende tokens baseret på den omgivende kontekst. Den lærer at udfylde de tomme felter.
  5. Permuteret sprogmodellering (PLM): Modellen forudsiger det næste token baseret på en tilfældig permutation af inputsekvensen. Den lærer at håndtere forskellige rækkefølger af tokens.
  6. Denoising Autoencoder (DAE): Modellen tager et delvist beskadiget input og sigter mod at gendanne det originale, uforvrængede input. Den lærer at håndtere støj eller manglende dele af teksten.
  7. Replaced Token Detection (RTD): Modellen registrerer, om et token kommer fra den originale tekst eller en genereret version. Den lærer at identificere erstattede eller manipulerede tokens.
  8. Næste sætningsforudsigelse (NSP): Modellen lærer at skelne om to inputsætninger er kontinuerlige segmenter fra træningsdataene. Den forstår forholdet mellem sætninger.

Disse opgaver hjælper modellen med at lære sprogets struktur og betydning. Ved at fortræne disse opgaver får modellerne en god sprogforståelse, før de finjusteres til specifikke applikationer.

Top 30+ transformatorer i AI

NavnForuddannet arkitekturOpgaverAnvendelseUdviklet af
ALBERTEncoderMLM/NSPSamme som BERTGoogle
AlpacaDekoderLMTekstgenerering og klassifikationsopgaverStanford
AlphaFoldEncoderForudsigelse af proteinfoldningProteinfoldningDeep Mind
Antropisk assistent (se også)DekoderLMFra generel dialog til kodeassistent.Antropisk
BARTEncoder/DekoderDAETekstgenerering og tekstforståelsesopgaverFacebook
BERTIEncoderMLM/NSPSprogforståelse og besvarelse af spørgsmålGoogle
BlenderBot 3DekoderLMTekstgenerering og tekstforståelsesopgaverFacebook
BLOOMDekoderLMTekstgenerering og tekstforståelsesopgaverBig Science/Huggingface
ChatGPTDekoderLMDialog agenterOpenAI
ChinchillaDekoderLMTekstgenerering og tekstforståelsesopgaverDeep Mind
CLIPEncoderBillede/objektklassificeringOpenAI
CTRLDekoderKontrollerbar tekstgenereringSalesforce
DALL-EDekoderForudsigelse af billedtekstTekst til billedeOpenAI
DALL-E-2Encoder/DekoderForudsigelse af billedtekstTekst til billedeOpenAI
DeBERTaDekoderMLMSamme som BERTmicrosoft
BeslutningstransformereDekoderForudsigelse af næste handlingGenerel RL (forstærkende læringsopgaver)Google/UC Berkeley/FAIR
DialoGPTDekoderLMTekstgenerering i dialogindstillingermicrosoft
DistilBERTEncoderMLM/NSPSprogforståelse og besvarelse af spørgsmålKnusende ansigt
DQ-BARTEncoder/DekoderDAETekstgenerering og forståelseAmazon
dukkeDekoderLMTekstgenerering og klassifikationsopgaverDatabricks, Inc
ERNIEEncoderMLMVidenintensive relaterede opgaverForskellige kinesiske institutioner
FlamingoDekoderForudsigelse af billedtekstTekst til billedeDeep Mind
GalacticaDekoderLMVidenskabelig QA, matematisk ræsonnement, opsummering, dokumentgenerering, forudsigelse af molekylære egenskaber og entitetsekstraktion.Meta
SVÆVEEncoderForudsigelse af billedtekstTekst til billedeOpenAI
GPT-3.5DekoderLMDialog og generelt sprogOpenAI
GPTInstruereDekoderLMVidentunge dialog- eller sprogopgaverOpenAI
HTMLEncoder/DekoderDAESprogmodel, der tillader struktureret HTML-promptFacebook
BilledeT5Forudsigelse af billedtekstTekst til billedeGoogle
LAMDADekoderLMGenerel sprogmodelleringGoogle
LLaMADekoderLMCommonsense-ræsonnement, Spørgsmålsbesvarelse, Kodegenerering og læseforståelse.Meta
MinervaDekoderLMMatematisk ræsonnementGoogle
HåndfladeDekoderLMSprogforståelse og -genereringGoogle
ROBERTAEncoderMLMSprogforståelse og besvarelse af spørgsmålUW/Google
spurvDekoderLMDialogagenter og generelle sproggenereringsapplikationer som Q&ADeep Mind
Stabil DiffusionEncoder/DekoderBilledtekst ForudsigelseTekst til billedeLMU München + Stability.ai + Eleuther.ai
VicunaDekoderLMDialog agenterUC Berkeley, CMU, Stanford, UC San Diego og MBZUAI

Ofte Stillede Spørgsmål

Transformere i AI er en type deep learning arkitektur der har ændret naturlig sprogbehandling og andre opgaver. De bruger selvopmærksomhedsmekanismer til at fange relationer mellem ord i en sætning, hvilket gør dem i stand til at forstå og generere menneskelignende tekst.

Indkodere og dekodere er komponenter, der almindeligvis anvendes i sekvens-til-sekvens-modeller. Indkodere behandler inputdata, såsom tekst eller billeder, og konverterer dem til en komprimeret repræsentation, mens dekodere genererer outputdata baseret på den kodede repræsentation, hvilket muliggør opgaver som sprogoversættelse eller billedtekstning.

Opmærksomhedslag er komponenter, der bruges i neurale netværk, især i Transformer-modeller. De gør det muligt for modellen selektivt at fokusere på forskellige dele af inputsekvensen, ved at tildele vægte til hvert element baseret på dets relevans, hvilket giver mulighed for effektivt at fange afhængigheder og relationer mellem elementer.

Finjusterede modeller refererer til fortrænede modeller, der er blevet videreuddannet på en specifik opgave eller datasæt for at forbedre deres ydeevne og tilpasse dem til de specifikke krav til den pågældende opgave. Denne finjusteringsproces involverer justering af modellens parametre for at optimere dens forudsigelser og gøre den mere specialiseret til målopgaven.

Transformere betragtes som fremtiden for kunstig intelligens, fordi de har demonstreret enestående ydeevne inden for en bred vifte af opgaver, herunder naturlig sprogbehandling, billedgenerering og mere. Deres evne til at opfange afhængigheder på lang rækkevidde og behandle sekventielle data effektivt gør dem meget tilpasningsdygtige og effektive til forskellige applikationer, hvilket baner vejen for fremskridt inden for generativ AI og revolutionerer mange aspekter af samfundet.

De mest berømte transformermodeller i AI inkluderer BERT (Bidirectional Encoder Representations from Transformers), GPT (Generativ Pre-trained Transformer) og T5 (Text-to-Text Transfer Transformer). Disse modeller har opnået bemærkelsesværdige resultater i forskellige naturlige sprogbehandlingsopgaver og har vundet betydelig popularitet i AI-forskningssamfundet.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Nye mememønter fra maj 2024: 7 valg til kryptofans

by Viktoria Palchik
Maj 08, 2024

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Nexo indleder 'The Hunt' for at belønne brugere med $12M i NEXO-tokens for at engagere sig i sit økosystem
Markeder Nyheds rapport Teknologier
Nexo indleder 'The Hunt' for at belønne brugere med $12M i NEXO-tokens for at engagere sig i sit økosystem
Maj 8, 2024
Revoluts Revolut X Exchange Woos Crypto Traders med nul producentgebyrer og avanceret analyse
Markeder Software Historier og anmeldelser Teknologier
Revoluts Revolut X Exchange Woos Crypto Traders med nul producentgebyrer og avanceret analyse
Maj 8, 2024
Lisk overgår officielt til Ethereum Layer 2 og afslører Core v4.0.6
Nyheds rapport Teknologier
Lisk overgår officielt til Ethereum Layer 2 og afslører Core v4.0.6
Maj 8, 2024
Nye mememønter fra maj 2024: 7 valg til kryptofans
Fordøje Markeder Teknologier
Nye mememønter fra maj 2024: 7 valg til kryptofans
Maj 8, 2024