Juni 12, 2023

Topp 30+ transformatormodeller inom AI: vad de är och hur de fungerar

Publicerad: 12 juni 2023 kl. 6 Uppdaterad: 52 juni 12 kl. 2023

Redigerad och faktagranskad: 12 juni 2023 kl. 6:52

Under de senaste månaderna har många Transformer-modeller dykt upp inom AI, var och en med unika och ibland underhållande namn. Men dessa namn kanske inte ger så mycket insikt i vad dessa modeller faktiskt gör. Den här artikeln syftar till att ge en heltäckande och enkel lista över de mest populära transformatormodellerna. Den kommer att klassificera dessa modeller och även introducera viktiga aspekter och innovationer inom Transformer-familjen. Topplistan kommer att täcka modeller utbildade genom självledd inlärning, som BERT eller GPT-3, såväl som modeller som genomgår ytterligare utbildning med mänskligt engagemang, såsom InstructGPT modell som används av ChatGPT.

Pro Tips
Den här guiden är utformad för att ge omfattande kunskaper och praktiska färdigheter i snabb teknik för nybörjare till avancerade elever.
Det finns många kurser tillgängligt för individer som vill lära sig mer om AI och dess relaterade teknologier.
Ta en titt på topp 10+ AI-acceleratorer som förväntas leda marknaden när det gäller prestanda.

Innehållsförteckning

Vad är transformatorer i AI?
Vad är kodare och avkodare i AI?
Vad är uppmärksamhetsskikt i AI?
Vad är finjusterade modeller i AI?
Varför är Transformers framtiden för AI?
3 typer av förträningsarkitekturer
8 typer av uppgifter för förutbildade modeller
Topp 30+ transformatorer inom AI
Vanliga frågor

Vad är transformatorer i AI?

Transformatorer är en typ av djupinlärningsmodeller som introducerades i en forskningsartikel som heter "Uppmärksamhet är allt du behöver” av Googles forskare 2017. Den här artikeln har fått enormt erkännande och samlat på sig över 38,000 XNUMX citeringar på bara fem år.

Den ursprungliga transformatorarkitekturen är en specifik form av kodar-avkodarmodeller som hade vunnit popularitet innan den introducerades. Dessa modeller förlitade sig huvudsakligen på LSTM och andra varianter av återkommande neurala nätverk (RNNs), där uppmärksamhet bara är en av de mekanismer som används. Emellertid föreslog Transformer-tidningen en revolutionerande idé att uppmärksamhet skulle kunna fungera som den enda mekanismen för att etablera beroenden mellan input och output.

Vad är transformatorer i AI? — Kredit: dominodatalab.com

I samband med Transformers består inmatningen av en sekvens av tokens, som kan vara ord eller underord i naturlig språkbehandling (NLP). Underord används ofta i NLP-modeller för att lösa problemet med ord som inte finns i ordförrådet. Utsignalen från kodaren producerar en representation med fast dimension för varje token, tillsammans med en separat inbäddning för hela sekvensen. Avkodaren tar kodarens utdata och genererar en sekvens av tokens som dess utdata.

Sedan publiceringen av Transformer-pappret, populära modeller som BERTI och GPT har antagit aspekter av den ursprungliga arkitekturen, antingen med hjälp av kodaren eller avkodarkomponenterna. Den viktigaste likheten mellan dessa modeller ligger i lagerarkitekturen, som innehåller självuppmärksamhetsmekanismer och frammatningslager. I Transformers korsar varje inmatningstoken sin egen väg genom lagren samtidigt som de bibehåller direkta beroenden med varannan token i inmatningssekvensen. Denna unika funktion möjliggör parallell och effektiv beräkning av kontextuella symbolrepresentationer, en förmåga som inte är genomförbar med sekventiella modeller som RNN.

Även om den här artikeln bara skrapar på ytan av Transformer-arkitekturen, ger den en inblick i dess grundläggande aspekter. För en mer omfattande förståelse rekommenderar vi att du hänvisar till den ursprungliga forskningsartikeln eller inlägget The Illustrated Transformer.

Vad är kodare och avkodare i AI?

Föreställ dig att du har två modeller, en kodare och en avkodare, arbetar tillsammans som ett lag. Kodaren tar en ingång och omvandlar den till en vektor med fast längd. Sedan tar avkodaren den vektorn och omvandlar den till en utdatasekvens. Dessa modeller tränas tillsammans för att se till att utgången matchar inmatningen så nära som möjligt.

Både kodaren och avkodaren hade flera lager. Varje lager i kodaren hade två underlager: ett självuppmärksamhetslager med flera huvuden och ett enkelt feed forward-nätverk. Självuppmärksamhetslagret hjälper varje token i inmatningen att förstå relationerna med alla andra tokens. Dessa underskikt har också en restkoppling och en lagernormalisering för att göra inlärningsprocessen smidigare.

Dekoderns multihuvud självuppmärksamhetslager fungerar lite annorlunda än den i kodaren. Den maskerar tokens till höger om token den fokuserar på. Detta säkerställer att avkodaren bara tittar på de tokens som kommer före den som den försöker förutsäga. Denna maskerade uppmärksamhet med flera huvuden hjälper avkodaren att generera korrekta förutsägelser. Dessutom inkluderar avkodaren ett annat underskikt, vilket är ett multi-head uppmärksamhetslager över alla utsignaler från kodaren.

Det är viktigt att notera att dessa specifika detaljer har modifierats i olika varianter av Transformer-modellen. Modeller som BERT och GPT, till exempel, är baserade på antingen kodar- eller avkodaraspekten av den ursprungliga arkitekturen.

Vad är uppmärksamhetsskikt i AI?

I den modellarkitektur vi diskuterade tidigare är uppmärksamhetslagren med flera huvuden de speciella element som gör den kraftfull. Men vad är uppmärksamhet egentligen? Se det som en funktion som mappar en fråga till en uppsättning information och ger en utdata. Varje token i inmatningen har en fråga, nyckel och värde kopplat till sig. Utdatarepresentationen för varje token beräknas genom att ta en viktad summa av värdena, där vikten för varje värde bestäms av hur väl den matchar frågan.

Transformatorer använder en kompatibilitetsfunktion som kallas skalad punktprodukt för att beräkna dessa vikter. Det intressanta med uppmärksamhet i Transformers är att varje token går igenom sin egen beräkningsbana, vilket möjliggör parallell beräkning av alla tokens i inmatningssekvensen. Det är helt enkelt flera uppmärksamhetsblock som oberoende beräknar representationer för varje token. Dessa representationer kombineras sedan för att skapa den slutliga representationen av token.

Jämfört med andra typer av nätverk som återkommande och fackliga nätverk, uppmärksamhetslager har några fördelar. De är beräkningseffektiva, vilket innebär att de kan bearbeta information snabbt. De har också högre anslutningsmöjligheter, vilket är användbart för att fånga långsiktiga relationer i sekvenser.

Vad är finjusterade modeller i AI?

Grundmodeller är kraftfulla modeller som tränas på en stor mängd allmän data. De kan sedan anpassas eller finjusteras för specifika uppgifter genom att träna dem på en mindre uppsättning av målspecifika data. Detta tillvägagångssätt, populariserat av BERT-papper, har lett till dominansen av transformatorbaserade modeller i språkrelaterade maskininlärningsuppgifter.

När det gäller modeller som BERT producerar de representationer av inmatningstoken men utför inte specifika uppgifter på egen hand. För att göra dem användbara, ytterligare neurala lager läggs till ovanpå och modellen tränas från början till slut, en process som kallas finjustering. Dock med generativa modeller tycka om GPT, tillvägagångssättet är något annorlunda. GPT är en avkodarspråkmodell tränad att förutsäga nästa ord i en mening. Genom att träna på stora mängder webbdata, GPT kan generera rimliga utdata baserat på ingångsfrågor eller uppmaningar.

Att göra GPT mer hjälpsam, OpenAI forskare utvecklade InstrueraGPT, som är tränad att följa mänskliga instruktioner. Detta uppnås genom finjustering GPT använda människomärkta data från olika uppgifter. InstrueraGPT kan utföra ett brett utbud av uppgifter och används av populära motorer som ChatGPT.

Finjustering kan också användas för att skapa varianter av grundmodeller optimerade för specifika syften bortom språkmodellering. Till exempel finns det modeller som är finjusterade för semantikrelaterade uppgifter som textklassificering och sökhämtning. Dessutom har transformatorkodare framgångsrikt finjusterats inom multi-task lärande ramar att utföra flera semantiska uppgifter med en enda delad modell.

Idag används finjustering för att skapa versioner av grundmodeller som kan användas av ett stort antal användare. Processen innebär att generera svar på input uppmaningar och att låta människor rangordna resultaten. Denna rankning används för att träna en belöningsmodell, som tilldelar poäng till varje utgång. Förstärkande lärande med mänsklig feedback används sedan för att vidareutbilda modellen.

Varför är Transformers framtiden för AI?

Transformers, en typ av kraftfull modell, demonstrerades först inom språköversättningsområdet. Men forskare insåg snabbt att Transformers kunde användas för olika språkrelaterade uppgifter genom att träna dem på en stor mängd omärkt text och sedan finjustera dem på en mindre uppsättning märkta data. Detta tillvägagångssätt gjorde det möjligt för Transformers att fånga betydande kunskap om språk.

Transformer-arkitekturen, som ursprungligen utformades för språkuppgifter, har även tillämpats på andra applikationer som genererar bilder, ljud, musik och till och med handlingar. Detta har gjort Transformers till en nyckelkomponent inom området Generativ AI, som är att förändra olika aspekter av samhället.

Tillgången till verktyg och ramverk som t.ex PyTorch och TensorFlow har spelat en avgörande roll i den utbredda användningen av transformatormodeller. Företag som Huggingface har byggt sina affärer kring idén kommersialisering av Transformer-bibliotek med öppen källkod och specialiserad hårdvara som NVIDIAs Hopper Tensor Cores har ytterligare accelererat utbildnings- och slutledningshastigheten för dessa modeller.

En anmärkningsvärd tillämpning av Transformers är ChatGPT, en chatbot släppt av OpenAI. Det blev otroligt populärt och nådde miljontals användare på kort tid. OpenAI har också meddelat släppet av GPT-4, en kraftfullare version som kan uppnå människoliknande prestanda i uppgifter som t.ex medicinska och juridiska undersökningar.

Transformers inverkan på AI-området och deras breda användningsområde är obestridlig. De har förvandlat vägen vi närmar oss språkrelaterade uppgifter och banar väg för nya framsteg inom generativ AI.

3 typer av förträningsarkitekturer

Transformatorarkitekturen, som ursprungligen bestod av en kodare och en avkodare, har utvecklats till att inkludera olika varianter baserat på specifika behov. Låt oss bryta ner dessa variationer i enkla termer.

Encoder Pretraining: Dessa modeller fokuserar på att förstå fullständiga meningar eller passager. Under förträning används kodaren för att rekonstruera maskerade tokens i inmatningsmeningen. Detta hjälper modellen att lära sig att förstå det övergripande sammanhanget. Sådana modeller är användbara för uppgifter som textklassificering, entailment och extraktiv frågesvar.
Förträning av dekoder: Avkodarmodeller är tränade för att generera nästa token baserat på den föregående sekvensen av tokens. De är kända som autoregressiva språkmodeller. Självuppmärksamhetslagren i avkodaren kan bara komma åt tokens före en given token i meningen. Dessa modeller är idealiska för uppgifter som involverar textgenerering.
Transformator (Encoder-Decoder) Förträning: Denna variant kombinerar både kodar- och avkodarkomponenterna. Kodarens självuppmärksamhetslager kan komma åt alla inmatade tokens, medan avkodarens självuppmärksamhetslager endast kan komma åt tokens före en given token. Denna arkitektur gör det möjligt för avkodaren att använda representationerna som har lärts av kodaren. Encoder-decoder-modeller är väl lämpade för uppgifter som summering, översättning eller generativa frågesvar.

Mål för förträning kan involvera förnedring eller kausal språkmodellering. Dessa mål är mer komplexa för modeller av kodare och avkodare jämfört med modeller med endast kodare eller endast avkodare. Transformatorarkitekturen har olika variationer beroende på modellens fokus. Oavsett om det handlar om att förstå hela meningar, generera text eller kombinera båda för olika uppgifter, erbjuder Transformers flexibilitet när det gäller att hantera olika språkrelaterade utmaningar.

8 typer av uppgifter för förutbildade modeller

När vi tränar en modell måste vi ge den en uppgift eller ett mål att lära av. Det finns olika uppgifter inom naturlig språkbehandling (NLP) som kan användas för förträning av modeller. Låt oss dela upp några av dessa uppgifter i enkla termer:

Språkmodellering (LM): Modellen förutsäger nästa token i en mening. Den lär sig att förstå sammanhanget och generera sammanhängande meningar.
Causal Language Modeling: Modellen förutsäger nästa token i en textsekvens, i en ordning från vänster till höger. Det är som en berättarmodell som genererar meningar ett ord i taget.
Prefixspråkmodellering: Modellen separerar en "prefix"-sektion från huvudsekvensen. Den kan sköta vilken token som helst inom prefixet och genererar sedan resten av sekvensen autoregressivt.
Maskerad språkmodellering (MLM): Vissa tokens i inmatningsmeningarna är maskerade, och modellen förutsäger de saknade tokens baserat på det omgivande sammanhanget. Den lär sig fylla i tomrummen.
Permuterad språkmodellering (PLM): Modellen förutsäger nästa token baserat på en slumpmässig permutation av inmatningssekvensen. Den lär sig att hantera olika beställningar av polletter.
Denoising Autoencoder (DAE): Modellen tar en delvis skadad ingång och syftar till att återställa den ursprungliga, oförvrängda ingången. Den lär sig att hantera brus eller saknade delar av texten.
Replaced Token Detection (RTD): Modellen känner av om en token kommer från originaltexten eller en genererad version. Den lär sig att identifiera utbytta eller manipulerade tokens.
Nästa meningsprediktion (NSP): Modellen lär sig att särskilja om två inmatade meningar är kontinuerliga segment från träningsdata. Den förstår förhållandet mellan meningar.

Dessa uppgifter hjälper modellen att lära sig språkets struktur och betydelse. Genom att förträna dessa uppgifter får modellerna en god språkförståelse innan de finjusteras för specifika tillämpningar.

Topp 30+ transformatorer inom AI

Namn	Förträning av arkitektur	uppgift	Ansökan	Utvecklad av
ALBERT	kodare	MLM/NSP	Samma som BERT	Google
Alpacka	Avkodare	LM	Textgenerering och klassificeringsuppgifter	Stanford
AlphaFold	kodare	Proteinveckningsförutsägelse	Proteinvikning	djupt sinne
Antropisk assistent (se även)	Avkodare	LM	Från allmän dialog till kodassistent.	Antropisk
BART	Kodare/avkodare	DAE	Textgenerering och textförståelseuppgifter	Facebook
BERTI	kodare	MLM/NSP	Språkförståelse och frågesvar	Google
BlenderBot 3	Avkodare	LM	Textgenerering och textförståelseuppgifter	Facebook
BLOMMA	Avkodare	LM	Textgenerering och textförståelseuppgifter	Big Science/Huggingface
ChatGPT	Avkodare	LM	Dialogagenter	OpenAI
Chinchilla	Avkodare	LM	Textgenerering och textförståelseuppgifter	djupt sinne
KLÄMMA	kodare		Bild-/objektklassificering	OpenAI
CTRL	Avkodare		Kontrollerbar textgenerering	Salesforce
DALL-E	Avkodare	Bildtextförutsägelse	Text till bild	OpenAI
DALL-E-2	Kodare/avkodare	Bildtextförutsägelse	Text till bild	OpenAI
DeBERTa	Avkodare	MLM	Samma som BERT	Microsoft
Decision Transformers	Avkodare	Förutsägelse av nästa åtgärd	Allmän RL (förstärkande lärandeuppgifter)	Google/UC Berkeley/FAIR
DialoGPT	Avkodare	LM	Textgenerering i dialoginställningar	Microsoft
DistilBERT	kodare	MLM/NSP	Språkförståelse och frågesvar	Kramande ansikte
DQ-BART	Kodare/avkodare	DAE	Textgenerering och förståelse	amason
Dolly	Avkodare	LM	Textgenerering och klassificeringsuppgifter	Databricks, Inc
ERNIE	kodare	MLM	Kunskapsintensiva arbetsuppgifter	Olika kinesiska institutioner
Flamingo	Avkodare	Bildtextförutsägelse	Text till bild	djupt sinne
Galactica	Avkodare	LM	Vetenskaplig kvalitetssäkring, matematiska resonemang, sammanfattning, dokumentgenerering, förutsägelse av molekylära egenskaper och utvinning av entitet.	meta
GLIDA	kodare	Bildtextförutsägelse	Text till bild	OpenAI
GPT-3.5	Avkodare	LM	Dialog och allmänt språk	OpenAI
GPTInstruera	Avkodare	LM	Kunskapsintensiva dialog- eller språkuppgifter	OpenAI
html	Kodare/avkodare	DAE	Språkmodell som tillåter strukturerad HTML-uppmaning	Facebook
Bild	T5	Bildtextförutsägelse	Text till bild	Google
LAMDA	Avkodare	LM	Allmän språkmodellering	Google
LLaMA	Avkodare	LM	Sunt resonemang, Frågesvar, Kodgenerering och Läsförståelse.	meta
Minerva	Avkodare	LM	Matematiskt resonemang	Google
handflatan	Avkodare	LM	Språkförståelse och generering	Google
ROBERTA	kodare	MLM	Språkförståelse och frågesvar	UW/Google
Sparv	Avkodare	LM	Dialogagenter och allmänna språkgenereringsapplikationer som Q&A	djupt sinne
Stabil Diffusion	Kodare/avkodare	Bildtext Förutsägelse	Text till bild	LMU München + Stability.ai + Eleuther.ai
Vicuna	Avkodare	LM	Dialogagenter	UC Berkeley, CMU, Stanford, UC San Diego och MBZUAI

Vanliga frågor

Transformatorer i AI är en typ av djupinlärningsarkitektur som har förändrat naturlig språkbehandling och andra uppgifter. De använder självuppmärksamhetsmekanismer för att fånga relationer mellan ord i en mening, vilket gör det möjligt för dem att förstå och generera människoliknande text.

Kodare och avkodare är komponenter som vanligtvis används i sekvens-till-sekvens-modeller. Kodare bearbetar indata, såsom text eller bilder, och konverterar den till en komprimerad representation, medan avkodare genererar utdata baserat på den kodade representationen, vilket möjliggör uppgifter som språköversättning eller bildtextning.

Uppmärksamhetslager är komponenter som används i neurala nätverk, särskilt i Transformer-modeller. De gör det möjligt för modellen att selektivt fokusera på olika delar av inmatningssekvensen, tilldela vikter till varje element baserat på dess relevans, vilket gör det möjligt att effektivt fånga beroenden och relationer mellan element.

Finjusterade modeller avser förtränade modeller som har vidareutbildats i en specifik uppgift eller datauppsättning för att förbättra deras prestanda och anpassa dem till de specifika kraven för den uppgiften. Denna finjusteringsprocess innebär att parametrarna för modellen justeras för att optimera dess förutsägelser och göra den mer specialiserad för måluppgiften.

Transformatorer anses vara framtiden för AI eftersom de har visat exceptionella prestanda i ett brett spektrum av uppgifter, inklusive naturlig språkbehandling, bildgenerering och mer. Deras förmåga att fånga långväga beroenden och effektivt bearbeta sekventiell data gör dem mycket anpassningsbara och effektiva för olika applikationer, vilket banar väg för framsteg inom generativ AI och revolutionerar många aspekter av samhället.

De mest kända transformatormodellerna inom AI inkluderar BERT (Bidirectional Encoder Representations from Transformers), GPT (Generativ förtränad transformator) och T5 (text-till-textöverföringstransformator). Dessa modeller har uppnått anmärkningsvärda resultat i olika naturliga språkbearbetningsuppgifter och har vunnit betydande popularitet inom AI-forskningssamhället.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov