Топ 30+ модела трансформатори в AI: какво представляват и как работят
През последните месеци множество модели трансформатори се появиха в AI, всеки с уникални и понякога забавни имена. Тези имена обаче може да не предоставят много представа какво всъщност правят тези модели. Тази статия има за цел да предостави изчерпателен и ясен списък на най-популярните модели Transformer. Той ще класифицира тези модели и ще въведе важни аспекти и иновации в рамките на семейството Transformer. Горният списък ще покрие обучени модели чрез самоконтролирано обучение, като BERT или GPT-3, както и модели, които преминават допълнително обучение с човешко участие, като InstructGPT модел, използван от ChatGPT.
Професионални съвети |
---|
Това ръководство е предназначен да предостави изчерпателни знания и практически умения за бързо инженерство за начинаещи до напреднали учащи. |
Има много курсове достъпно за хора, които искат да научат повече за AI и свързаните с него технологии. |
Обърнете внимание на топ 10+ AI акселераторы които се очаква да водят на пазара по отношение на ефективността. |
- Какво представляват Трансформърс в AI?
- Какво представляват енкодерите и декодерите в AI?
- Какво представляват слоевете на вниманието в AI?
- Какво представляват фино настроените модели в AI?
- Защо Transformers са бъдещето на AI?
- 3 типа архитектури за предварително обучение
- 8 вида задачи за предварително обучени модели
- Топ 30+ трансформатори в AI
- Въпроси и Отговори
Какво представляват Трансформърс в AI?
Трансформаторите са вид модели за дълбоко обучение, които бяха въведени в изследователска статия, наречена „Вниманието е всичко, от което се нуждаете” от изследователи на Google през 2017 г. Този документ спечели огромно признание, натрупвайки над 38,000 XNUMX цитирания само за пет години.
Оригиналната архитектура на Transformer е специфична форма на модели енкодер-декодер, които са придобили популярност преди въвеждането си. На тези модели се разчита предимно LSTM и други варианти на повтарящи се невронни мрежи (RNN), като вниманието е само един от използваните механизми. Въпреки това документът Transformer предлага революционна идея, че вниманието може да служи като единствен механизъм за установяване на зависимости между входа и изхода.
В контекста на Transformers входът се състои от поредица от токени, които могат да бъдат думи или поддуми при обработка на естествен език (НЛП). Поддумите обикновено се използват в НЛП моделите за справяне с проблема с думите извън речника. Резултатът от енкодера създава представяне с фиксирано измерение за всеки токен, заедно с отделно вграждане за цялата последователност. Декодерът взема изхода на енкодера и генерира последователност от токени като своя изход.
След публикуването на хартията Transformer, популярни модели като БЕРТ намлява GPT са възприели аспекти на оригиналната архитектура, използвайки компонентите на енкодера или декодера. Основното сходство между тези модели се крие в архитектурата на слоевете, която включва механизми за самонасочване и слоеве за подаване напред. В Transformers всеки входен токен преминава по свой собствен път през слоевете, като същевременно поддържа директни зависимости с всеки друг токен във входната последователност. Тази уникална функция позволява паралелно и ефективно изчисление на контекстни представяния на токени, възможност, която не е осъществима с последователни модели като RNN.
Въпреки че тази статия само надраска повърхността на архитектурата на Transformer, тя дава поглед върху основните й аспекти. За по-цялостно разбиране препоръчваме да се обърнете към оригиналната изследователска статия или публикацията в The Illustrated Transformer.
Какво представляват енкодерите и декодерите в AI?
Представете си, че имате два модела, енкодер и декодер, работят заедно като отбор. Енкодерът приема вход и го превръща във вектор с фиксирана дължина. След това декодерът взема този вектор и го трансформира в изходна последователност. Тези модели се обучават заедно, за да се гарантира, че изходът съответства на входа възможно най-точно.
И енкодерът, и декодерът имаха няколко слоя. Всеки слой в енкодера имаше два подслоя: слой за самовнимание с няколко глави и проста мрежа за подаване напред. Слоят за самовнимание помага на всеки токен във входа да разбере връзките с всички останали токени. Тези подслоеве също имат остатъчна връзка и нормализиране на слоя, за да направят процеса на обучение по-гладък.
Мултиглавата на декодера слой за самовнимание работи малко по-различно от този в енкодера. Той маскира токените вдясно от токена, върху който се фокусира. Това гарантира, че декодерът разглежда само токените, които идват преди този, който се опитва да предвиди. Това маскирано многоглаво внимание помага на декодера да генерира точни прогнози. Освен това, декодерът включва друг подслой, който е слой за внимание с много глави върху всички изходи от енкодера.
Важно е да се отбележи, че тези специфични детайли са модифицирани в различни варианти на модела Transformer. Модели като BERT и GPT, например, се основават на аспекта на енкодера или декодера на оригиналната архитектура.
Какво представляват слоевете на вниманието в AI?
В архитектурата на модела, която обсъдихме по-рано, слоевете за внимание с множество глави са специалните елементи, които го правят мощен. Но какво точно е вниманието? Мислете за това като за функция, която свързва въпрос с набор от информация и дава изход. Всеки токен във входа има заявка, ключ и стойност, свързани с него. Изходното представяне на всеки токен се изчислява чрез вземане на претеглена сума от стойностите, където теглото за всяка стойност се определя от това колко добре съответства на заявката.
Трансформаторите използват функция за съвместимост, наречена скалиран точков продукт, за да изчислят тези тегла. Интересното при вниманието в Transformers е, че всеки жетон преминава през своя собствена изчислителна пътека, което позволява паралелно изчисление на всички жетони във входната последователност. Това са просто множество блокове за внимание, които независимо изчисляват представяния за всеки токен. След това тези представяния се комбинират, за да се създаде окончателното представяне на токена.
В сравнение с други видове мрежи като повтарящи се и конволюционни мрежи, слоевете за внимание имат няколко предимства. Те са изчислително ефективни, което означава, че могат да обработват информация бързо. Те също имат по-висока свързаност, което е полезно за улавяне на дългосрочни взаимоотношения в поредици.
Какво представляват фино настроените модели в AI?
Модели на фондация са мощни модели, които се обучават върху голямо количество общи данни. След това те могат да бъдат адаптирани или фино настроени за конкретни задачи, като ги обучавате на по-малък набор от специфични за целта данни. Този подход, популяризиран от Хартия BERT, доведе до доминирането на базирани на Transformer модели в свързаните с езика задачи за машинно обучение.
В случай на модели като BERT, те произвеждат представяния на входни токени, но не изпълняват конкретни задачи сами. За да ги направим полезни, допълнителни невронни слоеве се добавят отгоре и моделът се обучава от край до край, процес, известен като фина настройка. Въпреки това, с генеративни модели като GPT, подходът е малко по-различен. GPT е декодерен езиков модел, обучен да предвижда следващата дума в изречение. Чрез обучение върху огромни количества уеб данни, GPT може да генерира разумни резултати въз основа на входни заявки или подкани.
За да направите GPT по-полезен, OpenAI изследователите разработиха Дайте инструкцииGPT, който е обучен да следва човешки инструкции. Това се постига чрез фина настройка GPT използване на маркирани от хора данни от различни задачи. ИнструктирайтеGPT е в състояние да изпълнява широк набор от задачи и се използва от популярни двигатели като ChatGPT.
Фината настройка може да се използва и за създаване на варианти на модели на основата, оптимизирани за специфични цели отвъд езиковото моделиране. Например, има модели, фино настроени за задачи, свързани със семантиката, като класифициране на текст и извличане при търсене. Освен това трансформаторните енкодери са успешно фино настроени в многозадачност учебни рамки за изпълнение на множество семантични задачи, използвайки един споделен модел.
Днес фината настройка се използва за създаване на версии на модели на основата, които могат да се използват от голям брой потребители. Процесът включва генериране на отговори на входа подкани и хората да класират резултатите. Това класиране се използва за обучение на a модел на възнаграждение, който присвоява точки на всеки изход. Обучение с подсилване с човешка обратна връзка след това се използва за допълнително обучение на модела.
Защо Transformers са бъдещето на AI?
Трансформаторите, вид мощен модел, бяха демонстрирани за първи път в областта на езиковия превод. Изследователите обаче бързо разбраха, че Transformers могат да се използват за различни задачи, свързани с езика, като ги обучават върху голямо количество немаркиран текст и след това ги прецизират върху по-малък набор от етикетирани данни. Този подход позволи на Transformers да улови значително познание за езика.
Архитектурата на Transformer, първоначално проектирана за езикови задачи, е приложена и към други приложения като генериране на изображения, аудио, музика и дори действия. Това превърна Transformers в ключов компонент в областта на Generative AI, който променя различни аспекти на обществото.
Наличието на инструменти и рамки като напр PyTorch намлява TensorFlow изигра решаваща роля за широкото приемане на моделите Transformer. Компании като Huggingface са изградили свои бизнес около идеята на комерсиализиране на библиотеки Transformer с отворен код и специализиран хардуер като Hopper Tensor Cores на NVIDIA допълнително ускори обучението и скоростта на извод на тези модели.
Едно забележително приложение на Transformers е ChatGPT, чатбот, пуснат от OpenAI. Той стана невероятно популярен, достигайки милиони потребители за кратък период от време. OpenAI също обяви пускането на GPT-4, по-мощна версия, способна да постигне човешка производителност при задачи като медицински и правни изпити.
Въздействието на Transformers в областта на AI и широката им гама от приложения е неоспоримо. Те имат трансформира начина подхождаме към задачи, свързани с езика, и проправяме пътя за нови постижения в генеративния AI.
3 типа архитектури за предварително обучение
Архитектурата на Transformer, първоначално състояща се от енкодер и декодер, се е развила, за да включва различни варианти, базирани на специфични нужди. Нека разбием тези вариации с прости думи.
- Предварително обучение на енкодер: Тези модели се фокусират върху разбирането на цели изречения или пасажи. По време на предварителното обучение енкодерът се използва за реконструиране на маскирани токени във входното изречение. Това помага на модела да се научи да разбира цялостния контекст. Такива модели са полезни за задачи като класифициране на текст, включване и екстрактивни отговори на въпроси.
- Предварително обучение на декодера: Моделите на декодера са обучени да генерират следващия токен въз основа на предишната последователност от токени. Те са известни като авторегресивни езикови модели. Слоевете за самовнимание в декодера могат да имат достъп само до токени преди даден токен в изречението. Тези модели са идеални за задачи, включващи генериране на текст.
- Трансформатор (Кодер-Декодер) Предварително обучение: Този вариант съчетава компонентите на енкодера и декодера. Слоевете за самовнимание на енкодера имат достъп до всички входни токени, докато слоевете за самовнимание на декодера имат достъп само до токени преди даден токен. Тази архитектура позволява на декодера да използва представянията, научени от енкодера. Моделите енкодер-декодер са много подходящи за задачи като обобщаване, превод или генеративни отговори на въпроси.
Целите на предварителното обучение могат да включват премахване на шума или моделиране на каузален език. Тези цели са по-сложни за моделите енкодер-декодер в сравнение с моделите само с енкодер или само с декодер. Архитектурата на Transformer има различни вариации в зависимост от фокуса на модела. Независимо дали става дума за разбиране на цели изречения, генериране на текст или комбиниране на двете за различни задачи, Transformers предлагат гъвкавост при справяне с различни предизвикателства, свързани с езика.
8 вида задачи за предварително обучени модели
Когато обучаваме модел, трябва да му дадем задача или цел, от която да се учи. Има различни задачи в обработката на естествен език (NLP), които могат да се използват за модели за предварително обучение. Нека разбием някои от тези задачи с прости думи:
- Езиково моделиране (LM): Моделът предвижда следващата лексема в изречението. Научава се да разбира контекста и да генерира последователни изречения.
- Моделиране на каузален език: Моделът предвижда следващия токен в текстова последователност, следвайки ред отляво надясно. Това е като модел за разказване на истории, който генерира изречения една дума наведнъж.
- Моделиране на префиксен език: Моделът разделя секция „префикс“ от основната последователност. Той може да обърне внимание на всеки токен в рамките на префикса и след това генерира останалата част от последователността авторегресивно.
- Моделиране на маскиран език (MLM): Някои токени във входните изречения са маскирани и моделът предвижда липсващите токени въз основа на заобикалящия контекст. То се учи да попълва празните места.
- Пермутирано езиково моделиране (PLM): Моделът предвижда следващия токен на базата на произволна пермутация на входната последователност. То се научава да обработва различни поръчки на токени.
- Обезшумяващ автоматичен енкодер (DAE): Моделът приема частично повреден вход и има за цел да възстанови оригиналния, неизкривен вход. То се научава да се справя с шум или липсващи части от текста.
- Откриване на заменен токен (RTD): Моделът открива дали токен идва от оригиналния текст или генерирана версия. Научава се да идентифицира заменени или манипулирани токени.
- Предсказване на следващо изречение (NSP): Моделът се научава да разграничава дали две входни изречения са непрекъснати сегменти от данните за обучение. То разбира връзката между изреченията.
Тези задачи помагат на модела да научи структурата и значението на езика. Чрез предварително обучение за тези задачи моделите получават добро разбиране на езика, преди да бъдат фино настроени за конкретни приложения.
Топ 30+ трансформатори в AI
Име | Архитектура за предварително обучение | Task | Приложение | Разработено от |
---|---|---|---|---|
ALBERT | Encoder | MLM/NSP | Същото като BERT | |
алпака | Decoder | LM | Задачи за генериране и класификация на текст | Станфорд |
AlphaFold | Encoder | Прогноза за сгъване на протеини | Сгъване на протеини | Deep Mind |
Антропен асистент (вижте също) | Decoder | LM | От общ диалог до асистент за код. | Антропен |
BART | Енкодер/Декодер | DAE | Задачи за генериране на текст и разбиране на текст | |
БЕРТ | Encoder | MLM/NSP | Разбиране на езика и отговаряне на въпроси | |
BlenderBot 3 | Decoder | LM | Задачи за генериране на текст и разбиране на текст | |
BLOOM | Decoder | LM | Задачи за генериране на текст и разбиране на текст | Голяма наука/Huggingface |
ChatGPT | Decoder | LM | Диалогови агенти | OpenAI |
чинчила | Decoder | LM | Задачи за генериране на текст и разбиране на текст | Deep Mind |
CLIP | Encoder | Класификация на изображение/обект | OpenAI | |
CTRL | Decoder | Контролируемо генериране на текст | Salesforce | |
DALL-E | Decoder | Предвиждане на надписи | Текст към изображение | OpenAI |
DALL-E-2 | Енкодер/Декодер | Предвиждане на надписи | Текст към изображение | OpenAI |
ДеБЕРТа | Decoder | MLM | Същото като BERT | Microsoft |
Трансформатори на решения | Decoder | Прогноза за следващо действие | Общ RL (учебни задачи за укрепване) | Google/UC Berkeley/FAIR |
ДиалоGPT | Decoder | LM | Генериране на текст в диалоговите настройки | Microsoft |
DistilBERT | Encoder | MLM/NSP | Разбиране на езика и отговаряне на въпроси | прегърнато лице |
DQ-BART | Енкодер/Декодер | DAE | Генериране и разбиране на текст | Амазонка |
кукличка | Decoder | LM | Задачи за генериране и класификация на текст | Databricks, Inc |
ЕРНИ | Encoder | MLM | Знаниеемки свързани задачи | Различни китайски институции |
Фламинго | Decoder | Предвиждане на надписи | Текст към изображение | Deep Mind |
Galactica | Decoder | LM | Научно осигуряване на качеството, математически разсъждения, обобщаване, генериране на документи, прогнозиране на молекулярни свойства и извличане на обекти. | Meta |
ГЛИД | Encoder | Предвиждане на надписи | Текст към изображение | OpenAI |
GPT-3.5 | Decoder | LM | Диалог и общ език | OpenAI |
GPTДайте инструкции | Decoder | LM | Интензивни за знания диалогови или езикови задачи | OpenAI |
HTML | Енкодер/Декодер | DAE | Езиков модел, който позволява структурирани HTML подкани | |
Изображение | T5 | Предвиждане на надписи | Текст към изображение | |
ЛАМДА | Decoder | LM | Общо езиково моделиране | |
LLaMA | Decoder | LM | Разумно разсъждение, отговаряне на въпроси, генериране на код и разбиране при четене. | Meta |
Minerva | Decoder | LM | Математически разсъждения | |
длан | Decoder | LM | Езиково разбиране и генериране | |
RoBERTa | Encoder | MLM | Разбиране на езика и отговаряне на въпроси | UW/Google |
врабче | Decoder | LM | Диалогови агенти и общи приложения за генериране на език като Q&A | Deep Mind |
Стабилна дифузия | Енкодер/Декодер | Предсказване на надписи | Текст към изображение | LMU Мюнхен + Stability.ai + Eleuther.ai |
Викуна | Decoder | LM | Диалогови агенти | UC Berkeley, CMU, Stanford, UC San Diego и MBZUAI |
Въпроси и Отговори
Трансформаторите в AI са вид архитектура на дълбоко обучение което промени обработката на естествен език и други задачи. Те използват механизми за самовнимание, за да уловят връзките между думите в изречението, което им позволява да разберат и генерират човешки текст.
Кодерите и декодерите са компоненти, които обикновено се използват в модели от последователност към последователност. Енкодерите обработват входни данни, като текст или изображения, и ги преобразуват в компресирано представяне, докато декодерите генерират изходни данни въз основа на кодираното представяне, позволявайки задачи като езиков превод или надписи на изображения.
Слоевете на вниманието са компоненти, използвани в невронни мрежи, особено при моделите Transformer. Те позволяват на модела селективно да се фокусира върху различни части от входната последователност, като присвоява тегла на всеки елемент въз основа на неговата уместност, което позволява ефективно улавяне на зависимости и връзки между елементите.
Фино настроените модели се отнасят до предварително обучени модели, които са били допълнително обучени за конкретна задача или набор от данни, за да се подобри тяхното представяне и да се адаптират към специфичните изисквания на тази задача. Този процес на фина настройка включва коригиране на параметрите на модела, за да се оптимизират неговите прогнози и да се направи по-специализиран за целевата задача.
Трансформаторите се считат за бъдещето на AI, защото са демонстрирали изключителна производителност в широк набор от задачи, включително обработка на естествен език, генериране на изображения и др. Тяхната способност да улавят дългосрочни зависимости и да обработват последователни данни ефективно ги прави много адаптивни и ефективни за различни приложения, проправяйки пътя за напредък в генеративния AI и революционизирайки много аспекти на обществото.
Най-известните трансформаторни модели в AI включват BERT (двупосочни енкодерни представяния от трансформатори), GPT (генеративен предварително обучен трансформатор) и T5 (трансформатор за прехвърляне от текст към текст). Тези модели са постигнали забележителни резултати в различни задачи за обработка на естествен език и са придобили значителна популярност в изследователската общност на AI.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.