AI Wiki Technika
Června 12, 2023

30+ modelů transformátorů v AI: Co jsou zač a jak fungují

V posledních měsících se v AI objevilo mnoho modelů Transformer, každý s jedinečnými a někdy zábavnými názvy. Tato jména však nemusí poskytovat mnoho informací o tom, co tyto modely skutečně dělají. Tento článek si klade za cíl poskytnout komplexní a přímočarý seznam nejoblíbenějších modelů Transformer. Bude klasifikovat tyto modely a také představí důležité aspekty a inovace v rámci rodiny Transformer. Horní seznam bude pokrývat vycvičené modely prostřednictvím samokontrolovaného učení, jako je BERT nebo GPT-3, stejně jako modely, které procházejí dalším školením s lidským zapojením, jako je InstructGPT model využívaný ChatGPT.

Credit: Metaverse Post (mpost.io)
Pro tipy
Tato příručka je navržen tak, aby poskytoval komplexní znalosti a praktické dovednosti v rychlém inženýrství pro začátečníky i pokročilé.
Kurzů je mnoho k dispozici pro jednotlivce, kteří se chtějí dozvědět více o AI a souvisejících technologiích.
Podívejte se na 10++ AI akcelerátorů od kterých se očekává, že povedou na trhu z hlediska výkonu.

Co jsou Transformers v AI?

Transformátory jsou typem modelů hlubokého učení, které byly představeny ve výzkumném dokumentu s názvem „Pozornost je vše, co potřebujete“ od výzkumníků Google v roce 2017. Tento dokument si získal nesmírné uznání a za pouhých pět let nashromáždil více než 38,000 XNUMX citací.

Původní architektura Transformer je specifická forma modelů kodér-dekodér, která si získala popularitu před svým uvedením. Tyto modely se převážně spoléhaly na LSTM a další varianty rekurentních neuronových sítí (RNN), přičemž pozornost je pouze jedním z používaných mechanismů. Dokument Transformer však navrhl revoluční myšlenku, že pozornost by mohla sloužit jako jediný mechanismus k vytvoření závislostí mezi vstupem a výstupem.

Co jsou Transformers v AI?
Kredit: dominodatalab.com

V kontextu Transformers se vstup skládá ze sekvence tokenů, což mohou být slova nebo podslova ve zpracování přirozeného jazyka (NLP). Podslova se běžně používají v modelech NLP k řešení problému slov mimo slovní zásobu. Výstup kodéru vytváří reprezentaci s pevnými rozměry pro každý token spolu se samostatným vložením pro celou sekvenci. Dekodér převezme výstup kodéru a jako výstup generuje sekvenci tokenů.

Od vydání papíru Transformer, populární modely jako BERTI a GPT přijali aspekty původní architektury, buď pomocí komponent kodéru nebo dekodéru. Klíčová podobnost mezi těmito modely spočívá v architektuře vrstev, která zahrnuje mechanismy sebepozorování a dopředné vrstvy. V Transformers prochází každý vstupní token svou vlastní cestou vrstvami, přičemž si zachovává přímé závislosti s každým dalším tokenem ve vstupní sekvenci. Tato jedinečná funkce umožňuje paralelní a efektivní výpočet kontextových reprezentací tokenů, což je možnost, která není proveditelná u sekvenčních modelů, jako jsou RNN.

I když tento článek pouze poškrábe povrch architektury Transformer, poskytuje pohled na její základní aspekty. Pro komplexnější pochopení doporučujeme odkázat na původní výzkumný dokument nebo příspěvek The Illustrated Transformer.

Co jsou kodéry a dekodéry v AI?

Představte si, že máte dva modely, kodér a dekodér, pracovat spolu jako tým. Kodér vezme vstup a převede jej na vektor s pevnou délkou. Poté dekodér vezme tento vektor a převede jej na výstupní sekvenci. Tyto modely jsou trénovány společně, aby se zajistilo, že výstup co nejpřesněji odpovídá vstupu.

Jak kodér, tak dekodér měl několik vrstev. Každá vrstva v kodéru měla dvě dílčí vrstvy: vícehlavou samopozornou vrstvu a jednoduchou dopřednou síť. Vrstva sebepozornosti pomáhá každému tokenu ve vstupu porozumět vztahům se všemi ostatními tokeny. Tyto podvrstvy mají také zbytkové spojení a normalizaci vrstev, aby byl proces učení plynulejší.

Vícehlavý dekodér vrstva sebepozorování funguje trochu jinak než v kodéru. Maskuje žetony napravo od žetonu, na který se zaměřuje. To zajišťuje, že dekodér se dívá pouze na tokeny, které jsou před tím, který se snaží předpovědět. Tato maskovaná pozornost více hlav pomáhá dekodéru generovat přesné předpovědi. Kromě toho dekodér obsahuje další podvrstvu, kterou je vícehlavá pozornostní vrstva přes všechny výstupy z kodéru.

Je důležité poznamenat, že tyto konkrétní detaily byly upraveny v různých variantách modelu Transformer. Modely jako BERT a GPTjsou například založeny buď na aspektu kodéru nebo dekodéru původní architektury.

Co jsou to vrstvy pozornosti v AI?

V architektuře modelu, o které jsme hovořili dříve, jsou vrstvy pozornosti s více hlavami speciálními prvky, díky nimž je výkonná. Ale co přesně je pozornost? Představte si to jako funkci, která mapuje otázku na sadu informací a poskytuje výstup. Každý token ve vstupu má přidružený dotaz, klíč a hodnotu. Výstupní reprezentace každého tokenu se vypočítá tak, že se vezme vážený součet hodnot, kde váha pro každou hodnotu je určena tím, jak dobře odpovídá dotazu.

Transformátory používají k výpočtu těchto hmotností funkci kompatibility nazvanou součin zmenšeného bodu. Zajímavá věc na pozornosti v Transformers je, že každý token prochází svou vlastní cestou výpočtu, což umožňuje paralelní výpočet všech tokenů ve vstupní sekvenci. Je to prostě více bloků pozornosti, které nezávisle vypočítávají reprezentace pro každý token. Tyto reprezentace se pak zkombinují a vytvoří konečnou reprezentaci tokenu.

Ve srovnání s jinými typy sítí, jako jsou rekurentní a konvoluční sítě, vrstvy pozornosti mají několik výhod. Jsou výpočetně efektivní, což znamená, že mohou rychle zpracovávat informace. Mají také vyšší konektivitu, což je užitečné pro zachycení dlouhodobých vztahů v sekvencích.

Co jsou vyladěné modely v AI?

Modely základů jsou výkonné modely, které jsou trénovány na velkém množství obecných dat. Poté je lze přizpůsobit nebo doladit pro konkrétní úkoly jejich trénováním na menší sadě cílově specifická data. Tento přístup, popularizovaný papír BERT, vedl k dominanci modelů založených na Transformeru v úlohách strojového učení souvisejících s jazykem.

V případě modelů, jako je BERT, vytvářejí reprezentace vstupních tokenů, ale samy o sobě neplní konkrétní úkoly. Aby byly užitečné, doplňkové nervové vrstvy jsou přidány navrch a model je trénován end-to-end, což je proces známý jako jemné ladění. Nicméně, s generativní modely jako GPT, přístup je trochu jiný. GPT je jazykový model dekodéru trénovaný k předvídání dalšího slova ve větě. Školením na obrovském množství webových dat GPT může generovat rozumné výstupy na základě vstupních dotazů nebo výzev.

Chcete-li GPT užitečnější, OpenAI výzkumníci vyvinuli PoučitGPT, který je vycvičený k dodržování lidských pokynů. Toho je dosaženo jemným doladěním GPT pomocí lidí označených dat z různých úkolů. PoučitGPT je schopen provádět širokou škálu úkolů a je používán populárními motory jako ChatGPT.

Jemné doladění lze také použít k vytvoření variant modelů základů optimalizovaných pro specifické účely mimo jazykové modelování. Existují například modely vyladěné pro sémantické úlohy, jako je klasifikace textu a vyhledávání. Kromě toho byly transformátorové kodéry úspěšně vyladěny v rámci multi-taskingu výukové rámce provádět více sémantických úloh pomocí jediného sdíleného modelu.

Dnes se jemné ladění používá k vytváření verzí modelů základů, které může používat velké množství uživatelů. Proces zahrnuje generování odpovědí na vstup výzvy a nechat lidi seřadit výsledky. Tento žebříček se používá k výcviku a model odměny, která každému výstupu přiřadí skóre. Posílení učení s lidskou zpětnou vazbou se pak použije k dalšímu trénování modelu.

Proč jsou Transformers budoucností AI?

Transformátory, typ výkonného modelu, byly poprvé demonstrovány na poli jazykového překladu. Výzkumníci si však rychle uvědomili, že Transformers lze použít pro různé úkoly související s jazykem tím, že je natrénujete na velkém množství neoznačeného textu a poté je doladíte na menší sadě označených dat. Tento přístup umožnil společnosti Transformers získat významné znalosti o jazyce.

Architektura Transformer, původně navržená pro jazykové úlohy, byla také aplikována na další aplikace, jako je např generování obrázků, zvuk, hudba a dokonce i akce. To z Transformers udělalo klíčovou součást v oblasti generativní umělé inteligence, která mění různé aspekty společnosti.

Dostupnost nástrojů a frameworků jako např PyTorch a TensorFlow sehrál klíčovou roli v širokém přijetí modelů Transformer. Společnosti jako Huggingface vybudovaly své podnikání kolem nápadu komercializace otevřených knihoven Transformer a specializovaného hardwaru, jako je Hopper Tensor Cores společnosti NVIDIA, dále urychlila trénování a rychlost vyvozování těchto modelů.

Jednou z pozoruhodných aplikací Transformers je ChatGPT, chatbot propuštěn OpenAI. Stala se neuvěřitelně populární a během krátké doby oslovila miliony uživatelů. OpenAI také oznámila vydání GPT-4, výkonnější verze schopná dosahovat lidského výkonu v úkolech, jako je např lékařské a právní zkoušky.

Vliv Transformers v oblasti AI a jejich široké spektrum aplikací je nepopiratelný. Oni mají proměnil způsob přistupujeme k úkolům souvisejícím s jazykem a dláždíme cestu novým pokrokům v generativní umělé inteligenci.

3 Typy architektur přípravy

Architektura Transformer, původně sestávající z kodéru a dekodéru, se vyvinula tak, aby zahrnovala různé varianty založené na konkrétních potřebách. Pojďme si tyto variace jednoduše rozebrat.

  1. Předtrénování kodéru: Tyto modely se zaměřují na porozumění úplným větám nebo pasážím. Během předtrénování se kodér používá k rekonstrukci maskovaných tokenů ve vstupní větě. To pomáhá modelu naučit se chápat celkový kontext. Takové modely jsou užitečné pro úkoly, jako je klasifikace textu, zahrnutí a extrakční odpovědi na otázky.
  2. Předtrénování dekodéru: Modely dekodérů jsou trénovány tak, aby generovaly další token na základě předchozí sekvence tokenů. Jsou známé jako auto-regresivní jazykové modely. Vrstvy sebepozornosti v dekodéru mají přístup pouze k tokenům před daným tokenem ve větě. Tyto modely jsou ideální pro úlohy zahrnující generování textu.
  3. Předtrénování transformátoru (kodéru-dekodéru).: Tato varianta kombinuje komponenty kodéru i dekodéru. Vrstvy sebepozornosti kodéru mají přístup ke všem vstupním tokenům, zatímco vrstvy sebepozornosti dekodéru mají přístup pouze k tokenům před daným tokenem. Tato architektura umožňuje dekodéru používat reprezentace naučená kodérem. Modely kodér-dekodér se dobře hodí pro úkoly, jako je sumarizace, překlad nebo generativní odpovědi na otázky.

Cíle předběžného školení mohou zahrnovat odšumování nebo kauzální modelování jazyka. Tyto cíle jsou složitější pro modely kodér-dekodér ve srovnání s modely pouze s kodérem nebo pouze s dekodérem. Architektura Transformeru má různé variace v závislosti na zaměření modelu. Ať už jde o porozumění úplným větám, generování textu nebo kombinaci obojího pro různé úkoly, Transformers nabízejí flexibilitu při řešení různých jazykových problémů.

8 Typy úloh pro předem trénované modely

Když trénujeme model, musíme mu dát úkol nebo cíl, ze kterého se máme učit. Ve zpracování přirozeného jazyka (NLP) existují různé úlohy, které lze použít pro předtrénovací modely. Pojďme si některé z těchto úkolů jednoduše rozebrat:

  1. Jazykové modelování (LM): Model předpovídá další token ve větě. Učí se chápat souvislosti a tvořit souvislé věty.
  2. Kauzální jazykové modelování: Model předpovídá další token v textové sekvenci v pořadí zleva doprava. Je to jako model vyprávění, který generuje věty jedno slovo po druhém.
  3. Jazykové modelování prefixů: Model odděluje sekci „prefix“ od hlavní sekvence. Může se věnovat libovolnému tokenu v rámci prefixu a poté generuje zbytek sekvence autoregresně.
  4. Masked Language Modeling (MLM): Některé tokeny ve vstupních větách jsou maskované a model předpovídá chybějící tokeny na základě okolního kontextu. Učí se vyplňovat prázdná místa.
  5. Permuted Language Modeling (PLM): Model předpovídá další token na základě náhodné permutace vstupní sekvence. Učí se zacházet s různými objednávkami žetonů.
  6. Denoising Autoencoder (DAE): Model přijímá částečně poškozený vstup a jeho cílem je obnovit původní, nezkreslený vstup. Učí se zacházet se šumem nebo chybějícími částmi textu.
  7. Replaced Token Detection (RTD): Model detekuje, zda token pochází z původního textu nebo z vygenerované verze. Učí se identifikovat nahrazené nebo zmanipulované tokeny.
  8. Next Sentence Prediction (NSP): Model se učí rozlišovat, zda jsou dvě vstupní věty spojitými segmenty z trénovacích dat. Rozumí vztahu mezi větami.

Tyto úkoly pomáhají modelu naučit se strukturu a význam jazyka. Předběžným školením na tyto úkoly modely získají dobré porozumění jazyku, než budou doladěny pro konkrétní aplikace.

Top 30+ Transformers v AI

PříjmeníPředškolní architekturaÚkoleditaci videaDeveloped by
ALBERTEncoderMLM/NSPStejně jako BERTGoogle
AlpacaDecoderLMÚlohy generování a klasifikace textuStanford
AlphaFoldEncoderPredikce skládání proteinůSkládání bílkovinDeepmind
Antropický asistent (viz také)DecoderLMOd obecného dialogu po asistenta kódu.Antropický
BARTKodér/dekodérDAEÚlohy generování textu a porozumění textufacebook
BERTIEncoderMLM/NSPJazykové porozumění a zodpovězení otázekGoogle
BlenderBot 3DecoderLMÚlohy generování textu a porozumění textufacebook
KVĚTDecoderLMÚlohy generování textu a porozumění textuVelká věda/Huggingface
ChatGPTDecoderLMDialogoví agentiOpenAI
ČinčilaDecoderLMÚlohy generování textu a porozumění textuDeepmind
CLIPEncoderKlasifikace obrázku/objektuOpenAI
CTRLDecoderOvladatelné generování textuSalesforce
DALL-EDecoderPředpověď titulkůText k obrázkuOpenAI
DALL-E-2Kodér/dekodérPředpověď titulkůText k obrázkuOpenAI
DeBERTaDecoderMLMStejně jako BERTMicrosoft
Rozhodovací transformátoryDecoderPředpověď další akceObecný RL (úkoly s posilováním)Google/UC Berkeley/FAIR
DialoGPTDecoderLMGenerování textu v nastavení dialoguMicrosoft
DistilBERTEncoderMLM/NSPJazykové porozumění a zodpovězení otázekobjímání obličeje
DQ-BARTKodér/dekodérDAEGenerování a porozumění textuAmazonka
PanenkaDecoderLMÚlohy generování a klasifikace textuDatabricks, Inc
ERNIEEncoderMLMZnalostně náročné související úkolyRůzné čínské instituce
PlameňákDecoderPředpověď titulkůText k obrázkuDeepmind
GalacticaDecoderLMVědecké QA, matematické uvažování, sumarizace, generování dokumentů, predikce molekulárních vlastností a extrakce entit.meta
KLOUZATEncoderPředpověď titulkůText k obrázkuOpenAI
GPT-3.5DecoderLMDialog a obecný jazykOpenAI
GPTPoučitDecoderLMDialogové nebo jazykové úkoly náročné na znalostiOpenAI
HTMLKodér/dekodérDAEJazykový model, který umožňuje strukturované HTML výzvyfacebook
ObrazT5Předpověď titulkůText k obrázkuGoogle
LAMDADecoderLMObecné jazykové modelováníGoogle
LLaMADecoderLMLogické uvažování, Odpovídání na otázky, Generování kódu a Čtení s porozuměním.meta
MinervaDecoderLMMatematické uvažováníGoogle
DlaňDecoderLMJazykové porozumění a generaceGoogle
RoBERTaEncoderMLMJazykové porozumění a zodpovězení otázekUW/Google
VrabecDecoderLMDialogoví agenti a obecné aplikace pro generování jazyka, jako jsou Q&ADeepmind
Stabilní difúzeKodér/dekodérPředpověď titulkůText k obrázkuLMU Mnichov + Stability.ai + Eleuther.ai
VicunaDecoderLMDialogoví agentiUC Berkeley, CMU, Stanford, UC San Diego a MBZUAI

Nejčastější dotazy

Transformátory v AI jsou typem architektura hlubokého učení to změnilo zpracování přirozeného jazyka a další úkoly. Používají mechanismy sebepozornosti k zachycení vztahů mezi slovy ve větě, což jim umožňuje porozumět a vytvářet lidský text.

Kodéry a dekodéry jsou součásti běžně používané v modelech sekvenčního zpracování. Kodéry zpracovávají vstupní data, jako je text nebo obrázky, a převádějí je do komprimované reprezentace, zatímco dekodéry generují výstupní data na základě zakódované reprezentace, což umožňuje úkoly, jako je překlad jazyka nebo popisování obrázků.

Vrstvy pozornosti jsou komponenty používané v neuronové sítě, zejména v modelech Transformer. Umožňují modelu selektivně se zaměřit na různé části vstupní sekvence, přiřazovat váhy každému prvku na základě jeho relevance, což umožňuje efektivně zachytit závislosti a vztahy mezi prvky.

Jemně vyladěné modely označují předem trénované modely, které byly dále trénovány na konkrétním úkolu nebo datovém souboru, aby se zlepšil jejich výkon a přizpůsobily se konkrétním požadavkům daného úkolu. Tento proces jemného ladění zahrnuje úpravu parametrů modelu, aby se optimalizovaly jeho předpovědi a aby byl více specializovaný pro cílovou úlohu.

Transformátory jsou považovány za budoucnost umělé inteligence, protože prokázaly výjimečný výkon v široké řadě úloh, včetně zpracování přirozeného jazyka, generování obrázků a dalších. Jejich schopnost zachytit závislosti na dlouhé vzdálenosti a efektivně zpracovávat sekvenční data je činí vysoce adaptabilními a efektivními pro různé aplikace, dláždí cestu pro pokrok v generativní umělé inteligenci a přináší revoluci v mnoha aspektech společnosti.

Mezi nejznámější modely transformátorů v AI patří BERT (Bidirectional Encoder Representations from Transformers), GPT (Generativní předtrénovaný transformátor) a T5 (transformátor pro přenos textu na text). Tyto modely dosáhly pozoruhodných výsledků v různých úlohách zpracování přirozeného jazyka a získaly významnou popularitu ve výzkumné komunitě AI.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Hot Stories
Připojte se k našemu zpravodaji.
Novinky

The DOGE Frenzy: Analýza nedávného nárůstu hodnoty dogecoinu (DOGE).

Odvětví kryptoměn se rychle rozrůstá a meme coiny se připravují na výrazný vzestup. Dogecoin (DOGE),...

Vědět více

Vývoj obsahu generovaného umělou inteligencí v Metaverse

Vznik generativního obsahu umělé inteligence je jedním z nejvíce fascinujících pokroků ve virtuálním prostředí...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
ZeroLend se připravuje na ZERO Token TGE 6. května a plánuje až 17% komunitu Airdrop Distribuce
Trhy Novinky Technika
ZeroLend se připravuje na ZERO Token TGE 6. května a plánuje až 17% komunitu Airdrop Distribuce
29. dubna 2024
Scroll dokončuje upgrade Bernoulli Mainnet, očekává 10x snížení transakčních nákladů
Novinky Technika
Scroll dokončuje upgrade Bernoulli Mainnet, očekává 10x snížení transakčních nákladů
29. dubna 2024
OKX Jumpstart uvádí Runecoiny, umožňuje sázky BTC k vydělávání tokenů RUNE
Trhy Novinky Technika
OKX Jumpstart uvádí Runecoiny, umožňuje sázky BTC k vydělávání tokenů RUNE
29. dubna 2024
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (22-26.04)
Strávit Business Trhy Technika
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (22-26.04)
26. dubna 2024
CRYPTOMERIA LABS PTE. LTD.