AI Wiki Teknologi
Juni 12, 2023

Topp 30+ transformatormodeller inom AI: vad de är och hur de fungerar

Under de senaste månaderna har många Transformer-modeller dykt upp inom AI, var och en med unika och ibland underhållande namn. Men dessa namn kanske inte ger så mycket insikt i vad dessa modeller faktiskt gör. Den här artikeln syftar till att ge en heltäckande och enkel lista över de mest populära transformatormodellerna. Den kommer att klassificera dessa modeller och även introducera viktiga aspekter och innovationer inom Transformer-familjen. Topplistan kommer att täcka modeller utbildade genom självledd inlärning, som BERT eller GPT-3, såväl som modeller som genomgår ytterligare utbildning med mänskligt engagemang, såsom InstructGPT modell som används av ChatGPT.

Credit: Metaverse Post (mpost.io)
Pro Tips
Den här guiden är utformad för att ge omfattande kunskaper och praktiska färdigheter i snabb teknik för nybörjare till avancerade elever.
Det finns många kurser tillgängligt för individer som vill lära sig mer om AI och dess relaterade teknologier.
Ta en titt på topp 10+ AI-acceleratorer som förväntas leda marknaden när det gäller prestanda.

Vad är transformatorer i AI?

Transformatorer är en typ av djupinlärningsmodeller som introducerades i en forskningsartikel som heter "Uppmärksamhet är allt du behöver” av Googles forskare 2017. Den här artikeln har fått enormt erkännande och samlat på sig över 38,000 XNUMX citeringar på bara fem år.

Den ursprungliga transformatorarkitekturen är en specifik form av kodar-avkodarmodeller som hade vunnit popularitet innan den introducerades. Dessa modeller förlitade sig huvudsakligen på LSTM och andra varianter av återkommande neurala nätverk (RNNs), där uppmärksamhet bara är en av de mekanismer som används. Emellertid föreslog Transformer-tidningen en revolutionerande idé att uppmärksamhet skulle kunna fungera som den enda mekanismen för att etablera beroenden mellan input och output.

Vad är transformatorer i AI?
Kredit: dominodatalab.com

I samband med Transformers består inmatningen av en sekvens av tokens, som kan vara ord eller underord i naturlig språkbehandling (NLP). Underord används ofta i NLP-modeller för att lösa problemet med ord som inte finns i ordförrådet. Utsignalen från kodaren producerar en representation med fast dimension för varje token, tillsammans med en separat inbäddning för hela sekvensen. Avkodaren tar kodarens utdata och genererar en sekvens av tokens som dess utdata.

Sedan publiceringen av Transformer-pappret, populära modeller som BERTI och GPT har antagit aspekter av den ursprungliga arkitekturen, antingen med hjälp av kodaren eller avkodarkomponenterna. Den viktigaste likheten mellan dessa modeller ligger i lagerarkitekturen, som innehåller självuppmärksamhetsmekanismer och frammatningslager. I Transformers korsar varje inmatningstoken sin egen väg genom lagren samtidigt som de bibehåller direkta beroenden med varannan token i inmatningssekvensen. Denna unika funktion möjliggör parallell och effektiv beräkning av kontextuella symbolrepresentationer, en förmåga som inte är genomförbar med sekventiella modeller som RNN.

Även om den här artikeln bara skrapar på ytan av Transformer-arkitekturen, ger den en inblick i dess grundläggande aspekter. För en mer omfattande förståelse rekommenderar vi att du hänvisar till den ursprungliga forskningsartikeln eller inlägget The Illustrated Transformer.

Vad är kodare och avkodare i AI?

Föreställ dig att du har två modeller, en kodare och en avkodare, arbetar tillsammans som ett lag. Kodaren tar en ingång och omvandlar den till en vektor med fast längd. Sedan tar avkodaren den vektorn och omvandlar den till en utdatasekvens. Dessa modeller tränas tillsammans för att se till att utgången matchar inmatningen så nära som möjligt.

Både kodaren och avkodaren hade flera lager. Varje lager i kodaren hade två underlager: ett självuppmärksamhetslager med flera huvuden och ett enkelt feed forward-nätverk. Självuppmärksamhetslagret hjälper varje token i inmatningen att förstå relationerna med alla andra tokens. Dessa underskikt har också en restkoppling och en lagernormalisering för att göra inlärningsprocessen smidigare.

Dekoderns multihuvud självuppmärksamhetslager fungerar lite annorlunda än den i kodaren. Den maskerar tokens till höger om token den fokuserar på. Detta säkerställer att avkodaren bara tittar på de tokens som kommer före den som den försöker förutsäga. Denna maskerade uppmärksamhet med flera huvuden hjälper avkodaren att generera korrekta förutsägelser. Dessutom inkluderar avkodaren ett annat underskikt, vilket är ett multi-head uppmärksamhetslager över alla utsignaler från kodaren.

Det är viktigt att notera att dessa specifika detaljer har modifierats i olika varianter av Transformer-modellen. Modeller som BERT och GPT, till exempel, är baserade på antingen kodar- eller avkodaraspekten av den ursprungliga arkitekturen.

Vad är uppmärksamhetsskikt i AI?

I den modellarkitektur vi diskuterade tidigare är uppmärksamhetslagren med flera huvuden de speciella element som gör den kraftfull. Men vad är uppmärksamhet egentligen? Se det som en funktion som mappar en fråga till en uppsättning information och ger en utdata. Varje token i inmatningen har en fråga, nyckel och värde kopplat till sig. Utdatarepresentationen för varje token beräknas genom att ta en viktad summa av värdena, där vikten för varje värde bestäms av hur väl den matchar frågan.

Transformatorer använder en kompatibilitetsfunktion som kallas skalad punktprodukt för att beräkna dessa vikter. Det intressanta med uppmärksamhet i Transformers är att varje token går igenom sin egen beräkningsbana, vilket möjliggör parallell beräkning av alla tokens i inmatningssekvensen. Det är helt enkelt flera uppmärksamhetsblock som oberoende beräknar representationer för varje token. Dessa representationer kombineras sedan för att skapa den slutliga representationen av token.

Jämfört med andra typer av nätverk som återkommande och fackliga nätverk, uppmärksamhetslager har några fördelar. De är beräkningseffektiva, vilket innebär att de kan bearbeta information snabbt. De har också högre anslutningsmöjligheter, vilket är användbart för att fånga långsiktiga relationer i sekvenser.

Vad är finjusterade modeller i AI?

Grundmodeller är kraftfulla modeller som tränas på en stor mängd allmän data. De kan sedan anpassas eller finjusteras för specifika uppgifter genom att träna dem på en mindre uppsättning av målspecifika data. Detta tillvägagångssätt, populariserat av BERT-papper, har lett till dominansen av transformatorbaserade modeller i språkrelaterade maskininlärningsuppgifter.

När det gäller modeller som BERT producerar de representationer av inmatningstoken men utför inte specifika uppgifter på egen hand. För att göra dem användbara, ytterligare neurala lager läggs till ovanpå och modellen tränas från början till slut, en process som kallas finjustering. Dock med generativa modeller tycka om GPT, tillvägagångssättet är något annorlunda. GPT är en avkodarspråkmodell tränad att förutsäga nästa ord i en mening. Genom att träna på stora mängder webbdata, GPT kan generera rimliga utdata baserat på ingångsfrågor eller uppmaningar.

Att göra GPT mer hjälpsam, OpenAI forskare utvecklade InstrueraGPT, som är tränad att följa mänskliga instruktioner. Detta uppnås genom finjustering GPT använda människomärkta data från olika uppgifter. InstrueraGPT kan utföra ett brett utbud av uppgifter och används av populära motorer som ChatGPT.

Finjustering kan också användas för att skapa varianter av grundmodeller optimerade för specifika syften bortom språkmodellering. Till exempel finns det modeller som är finjusterade för semantikrelaterade uppgifter som textklassificering och sökhämtning. Dessutom har transformatorkodare framgångsrikt finjusterats inom multi-task lärande ramar att utföra flera semantiska uppgifter med en enda delad modell.

Idag används finjustering för att skapa versioner av grundmodeller som kan användas av ett stort antal användare. Processen innebär att generera svar på input uppmaningar och att låta människor rangordna resultaten. Denna rankning används för att träna en belöningsmodell, som tilldelar poäng till varje utgång. Förstärkande lärande med mänsklig feedback används sedan för att vidareutbilda modellen.

Varför är Transformers framtiden för AI?

Transformers, en typ av kraftfull modell, demonstrerades först inom språköversättningsområdet. Men forskare insåg snabbt att Transformers kunde användas för olika språkrelaterade uppgifter genom att träna dem på en stor mängd omärkt text och sedan finjustera dem på en mindre uppsättning märkta data. Detta tillvägagångssätt gjorde det möjligt för Transformers att fånga betydande kunskap om språk.

Transformer-arkitekturen, som ursprungligen utformades för språkuppgifter, har även tillämpats på andra applikationer som genererar bilder, ljud, musik och till och med handlingar. Detta har gjort Transformers till en nyckelkomponent inom området Generativ AI, som är att förändra olika aspekter av samhället.

Tillgången till verktyg och ramverk som t.ex PyTorch och TensorFlow har spelat en avgörande roll i den utbredda användningen av transformatormodeller. Företag som Huggingface har byggt sina affärer kring idén kommersialisering av Transformer-bibliotek med öppen källkod och specialiserad hårdvara som NVIDIAs Hopper Tensor Cores har ytterligare accelererat utbildnings- och slutledningshastigheten för dessa modeller.

En anmärkningsvärd tillämpning av Transformers är ChatGPT, en chatbot släppt av OpenAI. Det blev otroligt populärt och nådde miljontals användare på kort tid. OpenAI har också meddelat släppet av GPT-4, en kraftfullare version som kan uppnå människoliknande prestanda i uppgifter som t.ex medicinska och juridiska undersökningar.

Transformers inverkan på AI-området och deras breda användningsområde är obestridlig. De har förvandlat vägen vi närmar oss språkrelaterade uppgifter och banar väg för nya framsteg inom generativ AI.

3 typer av förträningsarkitekturer

Transformatorarkitekturen, som ursprungligen bestod av en kodare och en avkodare, har utvecklats till att inkludera olika varianter baserat på specifika behov. Låt oss bryta ner dessa variationer i enkla termer.

  1. Encoder Pretraining: Dessa modeller fokuserar på att förstå fullständiga meningar eller passager. Under förträning används kodaren för att rekonstruera maskerade tokens i inmatningsmeningen. Detta hjälper modellen att lära sig att förstå det övergripande sammanhanget. Sådana modeller är användbara för uppgifter som textklassificering, entailment och extraktiv frågesvar.
  2. Förträning av dekoder: Avkodarmodeller är tränade för att generera nästa token baserat på den föregående sekvensen av tokens. De är kända som autoregressiva språkmodeller. Självuppmärksamhetslagren i avkodaren kan bara komma åt tokens före en given token i meningen. Dessa modeller är idealiska för uppgifter som involverar textgenerering.
  3. Transformator (Encoder-Decoder) Förträning: Denna variant kombinerar både kodar- och avkodarkomponenterna. Kodarens självuppmärksamhetslager kan komma åt alla inmatade tokens, medan avkodarens självuppmärksamhetslager endast kan komma åt tokens före en given token. Denna arkitektur gör det möjligt för avkodaren att använda representationerna som har lärts av kodaren. Encoder-decoder-modeller är väl lämpade för uppgifter som summering, översättning eller generativa frågesvar.

Mål för förträning kan involvera förnedring eller kausal språkmodellering. Dessa mål är mer komplexa för modeller av kodare och avkodare jämfört med modeller med endast kodare eller endast avkodare. Transformatorarkitekturen har olika variationer beroende på modellens fokus. Oavsett om det handlar om att förstå hela meningar, generera text eller kombinera båda för olika uppgifter, erbjuder Transformers flexibilitet när det gäller att hantera olika språkrelaterade utmaningar.

8 typer av uppgifter för förutbildade modeller

När vi tränar en modell måste vi ge den en uppgift eller ett mål att lära av. Det finns olika uppgifter inom naturlig språkbehandling (NLP) som kan användas för förträning av modeller. Låt oss dela upp några av dessa uppgifter i enkla termer:

  1. Språkmodellering (LM): Modellen förutsäger nästa token i en mening. Den lär sig att förstå sammanhanget och generera sammanhängande meningar.
  2. Causal Language Modeling: Modellen förutsäger nästa token i en textsekvens, i en ordning från vänster till höger. Det är som en berättarmodell som genererar meningar ett ord i taget.
  3. Prefixspråkmodellering: Modellen separerar en "prefix"-sektion från huvudsekvensen. Den kan sköta vilken token som helst inom prefixet och genererar sedan resten av sekvensen autoregressivt.
  4. Maskerad språkmodellering (MLM): Vissa tokens i inmatningsmeningarna är maskerade, och modellen förutsäger de saknade tokens baserat på det omgivande sammanhanget. Den lär sig fylla i tomrummen.
  5. Permuterad språkmodellering (PLM): Modellen förutsäger nästa token baserat på en slumpmässig permutation av inmatningssekvensen. Den lär sig att hantera olika beställningar av polletter.
  6. Denoising Autoencoder (DAE): Modellen tar en delvis skadad ingång och syftar till att återställa den ursprungliga, oförvrängda ingången. Den lär sig att hantera brus eller saknade delar av texten.
  7. Replaced Token Detection (RTD): Modellen känner av om en token kommer från originaltexten eller en genererad version. Den lär sig att identifiera utbytta eller manipulerade tokens.
  8. Nästa meningsprediktion (NSP): Modellen lär sig att särskilja om två inmatade meningar är kontinuerliga segment från träningsdata. Den förstår förhållandet mellan meningar.

Dessa uppgifter hjälper modellen att lära sig språkets struktur och betydelse. Genom att förträna dessa uppgifter får modellerna en god språkförståelse innan de finjusteras för specifika tillämpningar.

Topp 30+ transformatorer inom AI

Namn Förträning av arkitekturuppgiftAnsökanUtvecklad av
ALBERTkodareMLM/NSPSamma som BERTGoogle
AlpackaAvkodareLMTextgenerering och klassificeringsuppgifterStanford
AlphaFoldkodareProteinveckningsförutsägelseProteinvikningdjupt sinne
Antropisk assistent (se även)AvkodareLMFrån allmän dialog till kodassistent.Antropisk
BARTKodare/avkodareDAETextgenerering och textförståelseuppgifterFacebook
BERTIkodareMLM/NSPSpråkförståelse och frågesvarGoogle
BlenderBot 3AvkodareLMTextgenerering och textförståelseuppgifterFacebook
BLOMMAAvkodareLMTextgenerering och textförståelseuppgifterBig Science/Huggingface
ChatGPTAvkodareLMDialogagenterOpenAI
ChinchillaAvkodareLMTextgenerering och textförståelseuppgifterdjupt sinne
KLÄMMAkodareBild-/objektklassificeringOpenAI
CTRLAvkodareKontrollerbar textgenereringSalesforce
DALL-EAvkodareBildtextförutsägelseText till bildOpenAI
DALL-E-2Kodare/avkodareBildtextförutsägelseText till bildOpenAI
DeBERTaAvkodareMLMSamma som BERTMicrosoft
Decision TransformersAvkodareFörutsägelse av nästa åtgärdAllmän RL (förstärkande lärandeuppgifter)Google/UC Berkeley/FAIR
DialoGPTAvkodareLMTextgenerering i dialoginställningarMicrosoft
DistilBERTkodareMLM/NSPSpråkförståelse och frågesvarKramande ansikte
DQ-BARTKodare/avkodareDAETextgenerering och förståelseamason
DollyAvkodareLMTextgenerering och klassificeringsuppgifterDatabricks, Inc
ERNIEkodareMLMKunskapsintensiva arbetsuppgifterOlika kinesiska institutioner
FlamingoAvkodareBildtextförutsägelseText till bilddjupt sinne
GalacticaAvkodareLMVetenskaplig kvalitetssäkring, matematiska resonemang, sammanfattning, dokumentgenerering, förutsägelse av molekylära egenskaper och utvinning av entitet.meta
GLIDAkodareBildtextförutsägelseText till bildOpenAI
GPT-3.5AvkodareLMDialog och allmänt språkOpenAI
GPTInstrueraAvkodareLMKunskapsintensiva dialog- eller språkuppgifterOpenAI
htmlKodare/avkodareDAESpråkmodell som tillåter strukturerad HTML-uppmaningFacebook
BildT5BildtextförutsägelseText till bildGoogle
LAMDAAvkodareLMAllmän språkmodelleringGoogle
LLaMAAvkodareLMSunt resonemang, Frågesvar, Kodgenerering och Läsförståelse.meta
MinervaAvkodareLMMatematiskt resonemangGoogle
handflatanAvkodareLMSpråkförståelse och genereringGoogle
ROBERTAkodareMLMSpråkförståelse och frågesvarUW/Google
SparvAvkodareLMDialogagenter och allmänna språkgenereringsapplikationer som Q&Adjupt sinne
Stabil DiffusionKodare/avkodareBildtext FörutsägelseText till bildLMU München + Stability.ai + Eleuther.ai
VicunaAvkodareLMDialogagenterUC Berkeley, CMU, Stanford, UC San Diego och MBZUAI

Vanliga frågor

Transformatorer i AI är en typ av djupinlärningsarkitektur som har förändrat naturlig språkbehandling och andra uppgifter. De använder självuppmärksamhetsmekanismer för att fånga relationer mellan ord i en mening, vilket gör det möjligt för dem att förstå och generera människoliknande text.

Kodare och avkodare är komponenter som vanligtvis används i sekvens-till-sekvens-modeller. Kodare bearbetar indata, såsom text eller bilder, och konverterar den till en komprimerad representation, medan avkodare genererar utdata baserat på den kodade representationen, vilket möjliggör uppgifter som språköversättning eller bildtextning.

Uppmärksamhetslager är komponenter som används i neurala nätverk, särskilt i Transformer-modeller. De gör det möjligt för modellen att selektivt fokusera på olika delar av inmatningssekvensen, tilldela vikter till varje element baserat på dess relevans, vilket gör det möjligt att effektivt fånga beroenden och relationer mellan element.

Finjusterade modeller avser förtränade modeller som har vidareutbildats i en specifik uppgift eller datauppsättning för att förbättra deras prestanda och anpassa dem till de specifika kraven för den uppgiften. Denna finjusteringsprocess innebär att parametrarna för modellen justeras för att optimera dess förutsägelser och göra den mer specialiserad för måluppgiften.

Transformatorer anses vara framtiden för AI eftersom de har visat exceptionella prestanda i ett brett spektrum av uppgifter, inklusive naturlig språkbehandling, bildgenerering och mer. Deras förmåga att fånga långväga beroenden och effektivt bearbeta sekventiell data gör dem mycket anpassningsbara och effektiva för olika applikationer, vilket banar väg för framsteg inom generativ AI och revolutionerar många aspekter av samhället.

De mest kända transformatormodellerna inom AI inkluderar BERT (Bidirectional Encoder Representations from Transformers), GPT (Generativ förtränad transformator) och T5 (text-till-textöverföringstransformator). Dessa modeller har uppnått anmärkningsvärda resultat i olika naturliga språkbearbetningsuppgifter och har vunnit betydande popularitet inom AI-forskningssamhället.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Nya meme-mynt i maj 2024: 7 val för kryptofans

by Viktoriia Palchik
Maj 08, 2024

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Nexo inleder "Jakten" för att belöna användare med 12 miljoner USD i NEXO-tokens för att de engagerar sig i sitt ekosystem
Marknader Nyhetsrapport Teknologi
Nexo inleder "Jakten" för att belöna användare med 12 miljoner USD i NEXO-tokens för att de engagerar sig i sitt ekosystem
Maj 8, 2024
Revoluts Revolut X Exchange Woos Kryptohandlare med noll tillverkares avgifter och avancerad analys
Marknader Mjukvara Berättelser och recensioner Teknologi
Revoluts Revolut X Exchange Woos Kryptohandlare med noll tillverkares avgifter och avancerad analys
Maj 8, 2024
Lisk övergår officiellt till Ethereum Layer 2 och avslöjar Core v4.0.6
Nyhetsrapport Teknologi
Lisk övergår officiellt till Ethereum Layer 2 och avslöjar Core v4.0.6
Maj 8, 2024
Nya meme-mynt i maj 2024: 7 val för kryptofans
Smälta Marknader Teknologi
Nya meme-mynt i maj 2024: 7 val för kryptofans
Maj 8, 2024