AI Wiki Технологии
Юни 12, 2023

Топ 30+ модела трансформатори в AI: какво представляват и как работят

През последните месеци множество модели трансформатори се появиха в AI, всеки с уникални и понякога забавни имена. Тези имена обаче може да не предоставят много представа какво всъщност правят тези модели. Тази статия има за цел да предостави изчерпателен и ясен списък на най-популярните модели Transformer. Той ще класифицира тези модели и ще въведе важни аспекти и иновации в рамките на семейството Transformer. Горният списък ще покрие обучени модели чрез самоконтролирано обучение, като BERT или GPT-3, както и модели, които преминават допълнително обучение с човешко участие, като InstructGPT модел, използван от ChatGPT.

Credit: Metaverse Post (mpost.io)
Професионални съвети
Това ръководство е предназначен да предостави изчерпателни знания и практически умения за бързо инженерство за начинаещи до напреднали учащи.
Има много курсове достъпно за хора, които искат да научат повече за AI и свързаните с него технологии.
Обърнете внимание на топ 10+ AI акселераторы които се очаква да водят на пазара по отношение на ефективността.

Какво представляват Трансформърс в AI?

Трансформаторите са вид модели за дълбоко обучение, които бяха въведени в изследователска статия, наречена „Вниманието е всичко, от което се нуждаете” от изследователи на Google през 2017 г. Този документ спечели огромно признание, натрупвайки над 38,000 XNUMX цитирания само за пет години.

Оригиналната архитектура на Transformer е специфична форма на модели енкодер-декодер, които са придобили популярност преди въвеждането си. На тези модели се разчита предимно LSTM и други варианти на повтарящи се невронни мрежи (RNN), като вниманието е само един от използваните механизми. Въпреки това документът Transformer предлага революционна идея, че вниманието може да служи като единствен механизъм за установяване на зависимости между входа и изхода.

Какво представляват Трансформърс в AI?
Кредит: dominodatalab.com

В контекста на Transformers входът се състои от поредица от токени, които могат да бъдат думи или поддуми при обработка на естествен език (НЛП). Поддумите обикновено се използват в НЛП моделите за справяне с проблема с думите извън речника. Резултатът от енкодера създава представяне с фиксирано измерение за всеки токен, заедно с отделно вграждане за цялата последователност. Декодерът взема изхода на енкодера и генерира последователност от токени като своя изход.

След публикуването на хартията Transformer, популярни модели като БЕРТ намлява GPT са възприели аспекти на оригиналната архитектура, използвайки компонентите на енкодера или декодера. Основното сходство между тези модели се крие в архитектурата на слоевете, която включва механизми за самонасочване и слоеве за подаване напред. В Transformers всеки входен токен преминава по свой собствен път през слоевете, като същевременно поддържа директни зависимости с всеки друг токен във входната последователност. Тази уникална функция позволява паралелно и ефективно изчисление на контекстни представяния на токени, възможност, която не е осъществима с последователни модели като RNN.

Въпреки че тази статия само надраска повърхността на архитектурата на Transformer, тя дава поглед върху основните й аспекти. За по-цялостно разбиране препоръчваме да се обърнете към оригиналната изследователска статия или публикацията в The Illustrated Transformer.

Какво представляват енкодерите и декодерите в AI?

Представете си, че имате два модела, енкодер и декодер, работят заедно като отбор. Енкодерът приема вход и го превръща във вектор с фиксирана дължина. След това декодерът взема този вектор и го трансформира в изходна последователност. Тези модели се обучават заедно, за да се гарантира, че изходът съответства на входа възможно най-точно.

И енкодерът, и декодерът имаха няколко слоя. Всеки слой в енкодера имаше два подслоя: слой за самовнимание с няколко глави и проста мрежа за подаване напред. Слоят за самовнимание помага на всеки токен във входа да разбере връзките с всички останали токени. Тези подслоеве също имат остатъчна връзка и нормализиране на слоя, за да направят процеса на обучение по-гладък.

Мултиглавата на декодера слой за самовнимание работи малко по-различно от този в енкодера. Той маскира токените вдясно от токена, върху който се фокусира. Това гарантира, че декодерът разглежда само токените, които идват преди този, който се опитва да предвиди. Това маскирано многоглаво внимание помага на декодера да генерира точни прогнози. Освен това, декодерът включва друг подслой, който е слой за внимание с много глави върху всички изходи от енкодера.

Важно е да се отбележи, че тези специфични детайли са модифицирани в различни варианти на модела Transformer. Модели като BERT и GPT, например, се основават на аспекта на енкодера или декодера на оригиналната архитектура.

Какво представляват слоевете на вниманието в AI?

В архитектурата на модела, която обсъдихме по-рано, слоевете за внимание с множество глави са специалните елементи, които го правят мощен. Но какво точно е вниманието? Мислете за това като за функция, която свързва въпрос с набор от информация и дава изход. Всеки токен във входа има заявка, ключ и стойност, свързани с него. Изходното представяне на всеки токен се изчислява чрез вземане на претеглена сума от стойностите, където теглото за всяка стойност се определя от това колко добре съответства на заявката.

Трансформаторите използват функция за съвместимост, наречена скалиран точков продукт, за да изчислят тези тегла. Интересното при вниманието в Transformers е, че всеки жетон преминава през своя собствена изчислителна пътека, което позволява паралелно изчисление на всички жетони във входната последователност. Това са просто множество блокове за внимание, които независимо изчисляват представяния за всеки токен. След това тези представяния се комбинират, за да се създаде окончателното представяне на токена.

В сравнение с други видове мрежи като повтарящи се и конволюционни мрежи, слоевете за внимание имат няколко предимства. Те са изчислително ефективни, което означава, че могат да обработват информация бързо. Те също имат по-висока свързаност, което е полезно за улавяне на дългосрочни взаимоотношения в поредици.

Какво представляват фино настроените модели в AI?

Модели на фондация са мощни модели, които се обучават върху голямо количество общи данни. След това те могат да бъдат адаптирани или фино настроени за конкретни задачи, като ги обучавате на по-малък набор от специфични за целта данни. Този подход, популяризиран от Хартия BERT, доведе до доминирането на базирани на Transformer модели в свързаните с езика задачи за машинно обучение.

В случай на модели като BERT, те произвеждат представяния на входни токени, но не изпълняват конкретни задачи сами. За да ги направим полезни, допълнителни невронни слоеве се добавят отгоре и моделът се обучава от край до край, процес, известен като фина настройка. Въпреки това, с генеративни модели като GPT, подходът е малко по-различен. GPT е декодерен езиков модел, обучен да предвижда следващата дума в изречение. Чрез обучение върху огромни количества уеб данни, GPT може да генерира разумни резултати въз основа на входни заявки или подкани.

За да направите GPT по-полезен, OpenAI изследователите разработиха Дайте инструкцииGPT, който е обучен да следва човешки инструкции. Това се постига чрез фина настройка GPT използване на маркирани от хора данни от различни задачи. ИнструктирайтеGPT е в състояние да изпълнява широк набор от задачи и се използва от популярни двигатели като ChatGPT.

Фината настройка може да се използва и за създаване на варианти на модели на основата, оптимизирани за специфични цели отвъд езиковото моделиране. Например, има модели, фино настроени за задачи, свързани със семантиката, като класифициране на текст и извличане при търсене. Освен това трансформаторните енкодери са успешно фино настроени в многозадачност учебни рамки за изпълнение на множество семантични задачи, използвайки един споделен модел.

Днес фината настройка се използва за създаване на версии на модели на основата, които могат да се използват от голям брой потребители. Процесът включва генериране на отговори на входа подкани и хората да класират резултатите. Това класиране се използва за обучение на a модел на възнаграждение, който присвоява точки на всеки изход. Обучение с подсилване с човешка обратна връзка след това се използва за допълнително обучение на модела.

Защо Transformers са бъдещето на AI?

Трансформаторите, вид мощен модел, бяха демонстрирани за първи път в областта на езиковия превод. Изследователите обаче бързо разбраха, че Transformers могат да се използват за различни задачи, свързани с езика, като ги обучават върху голямо количество немаркиран текст и след това ги прецизират върху по-малък набор от етикетирани данни. Този подход позволи на Transformers да улови значително познание за езика.

Архитектурата на Transformer, първоначално проектирана за езикови задачи, е приложена и към други приложения като генериране на изображения, аудио, музика и дори действия. Това превърна Transformers в ключов компонент в областта на Generative AI, който променя различни аспекти на обществото.

Наличието на инструменти и рамки като напр PyTorch намлява TensorFlow изигра решаваща роля за широкото приемане на моделите Transformer. Компании като Huggingface са изградили свои бизнес около идеята на комерсиализиране на библиотеки Transformer с отворен код и специализиран хардуер като Hopper Tensor Cores на NVIDIA допълнително ускори обучението и скоростта на извод на тези модели.

Едно забележително приложение на Transformers е ChatGPT, чатбот, пуснат от OpenAI. Той стана невероятно популярен, достигайки милиони потребители за кратък период от време. OpenAI също обяви пускането на GPT-4, по-мощна версия, способна да постигне човешка производителност при задачи като медицински и правни изпити.

Въздействието на Transformers в областта на AI и широката им гама от приложения е неоспоримо. Те имат трансформира начина подхождаме към задачи, свързани с езика, и проправяме пътя за нови постижения в генеративния AI.

3 типа архитектури за предварително обучение

Архитектурата на Transformer, първоначално състояща се от енкодер и декодер, се е развила, за да включва различни варианти, базирани на специфични нужди. Нека разбием тези вариации с прости думи.

  1. Предварително обучение на енкодер: Тези модели се фокусират върху разбирането на цели изречения или пасажи. По време на предварителното обучение енкодерът се използва за реконструиране на маскирани токени във входното изречение. Това помага на модела да се научи да разбира цялостния контекст. Такива модели са полезни за задачи като класифициране на текст, включване и екстрактивни отговори на въпроси.
  2. Предварително обучение на декодера: Моделите на декодера са обучени да генерират следващия токен въз основа на предишната последователност от токени. Те са известни като авторегресивни езикови модели. Слоевете за самовнимание в декодера могат да имат достъп само до токени преди даден токен в изречението. Тези модели са идеални за задачи, включващи генериране на текст.
  3. Трансформатор (Кодер-Декодер) Предварително обучение: Този вариант съчетава компонентите на енкодера и декодера. Слоевете за самовнимание на енкодера имат достъп до всички входни токени, докато слоевете за самовнимание на декодера имат достъп само до токени преди даден токен. Тази архитектура позволява на декодера да използва представянията, научени от енкодера. Моделите енкодер-декодер са много подходящи за задачи като обобщаване, превод или генеративни отговори на въпроси.

Целите на предварителното обучение могат да включват премахване на шума или моделиране на каузален език. Тези цели са по-сложни за моделите енкодер-декодер в сравнение с моделите само с енкодер или само с декодер. Архитектурата на Transformer има различни вариации в зависимост от фокуса на модела. Независимо дали става дума за разбиране на цели изречения, генериране на текст или комбиниране на двете за различни задачи, Transformers предлагат гъвкавост при справяне с различни предизвикателства, свързани с езика.

8 вида задачи за предварително обучени модели

Когато обучаваме модел, трябва да му дадем задача или цел, от която да се учи. Има различни задачи в обработката на естествен език (NLP), които могат да се използват за модели за предварително обучение. Нека разбием някои от тези задачи с прости думи:

  1. Езиково моделиране (LM): Моделът предвижда следващата лексема в изречението. Научава се да разбира контекста и да генерира последователни изречения.
  2. Моделиране на каузален език: Моделът предвижда следващия токен в текстова последователност, следвайки ред отляво надясно. Това е като модел за разказване на истории, който генерира изречения една дума наведнъж.
  3. Моделиране на префиксен език: Моделът разделя секция „префикс“ от основната последователност. Той може да обърне внимание на всеки токен в рамките на префикса и след това генерира останалата част от последователността авторегресивно.
  4. Моделиране на маскиран език (MLM): Някои токени във входните изречения са маскирани и моделът предвижда липсващите токени въз основа на заобикалящия контекст. То се учи да попълва празните места.
  5. Пермутирано езиково моделиране (PLM): Моделът предвижда следващия токен на базата на произволна пермутация на входната последователност. То се научава да обработва различни поръчки на токени.
  6. Обезшумяващ автоматичен енкодер (DAE): Моделът приема частично повреден вход и има за цел да възстанови оригиналния, неизкривен вход. То се научава да се справя с шум или липсващи части от текста.
  7. Откриване на заменен токен (RTD): Моделът открива дали токен идва от оригиналния текст или генерирана версия. Научава се да идентифицира заменени или манипулирани токени.
  8. Предсказване на следващо изречение (NSP): Моделът се научава да разграничава дали две входни изречения са непрекъснати сегменти от данните за обучение. То разбира връзката между изреченията.

Тези задачи помагат на модела да научи структурата и значението на езика. Чрез предварително обучение за тези задачи моделите получават добро разбиране на езика, преди да бъдат фино настроени за конкретни приложения.

Топ 30+ трансформатори в AI

ИмеАрхитектура за предварително обучениеTaskПриложениеРазработено от
ALBERTEncoderMLM/NSPСъщото като BERTGoogle
алпакаDecoderLMЗадачи за генериране и класификация на текстСтанфорд
AlphaFoldEncoderПрогноза за сгъване на протеиниСгъване на протеиниDeep Mind
Антропен асистент (вижте също)DecoderLMОт общ диалог до асистент за код.Антропен
BARTЕнкодер/ДекодерDAEЗадачи за генериране на текст и разбиране на текстFacebook
БЕРТEncoderMLM/NSPРазбиране на езика и отговаряне на въпросиGoogle
BlenderBot 3DecoderLMЗадачи за генериране на текст и разбиране на текстFacebook
BLOOMDecoderLMЗадачи за генериране на текст и разбиране на текстГоляма наука/Huggingface
ChatGPTDecoderLMДиалогови агентиOpenAI
чинчилаDecoderLMЗадачи за генериране на текст и разбиране на текстDeep Mind
CLIPEncoderКласификация на изображение/обектOpenAI
CTRLDecoderКонтролируемо генериране на текстSalesforce
DALL-EDecoderПредвиждане на надписиТекст към изображениеOpenAI
DALL-E-2Енкодер/ДекодерПредвиждане на надписиТекст към изображениеOpenAI
ДеБЕРТаDecoderMLMСъщото като BERTMicrosoft
Трансформатори на решенияDecoderПрогноза за следващо действиеОбщ RL (учебни задачи за укрепване)Google/UC Berkeley/FAIR
ДиалоGPTDecoderLMГенериране на текст в диалоговите настройкиMicrosoft
DistilBERTEncoderMLM/NSPРазбиране на езика и отговаряне на въпросипрегърнато лице
DQ-BARTЕнкодер/ДекодерDAEГенериране и разбиране на текстАмазонка
кукличкаDecoderLMЗадачи за генериране и класификация на текстDatabricks, Inc
ЕРНИEncoderMLMЗнаниеемки свързани задачиРазлични китайски институции
ФламингоDecoderПредвиждане на надписиТекст към изображениеDeep Mind
GalacticaDecoderLMНаучно осигуряване на качеството, математически разсъждения, обобщаване, генериране на документи, прогнозиране на молекулярни свойства и извличане на обекти.Meta
ГЛИДEncoderПредвиждане на надписиТекст към изображениеOpenAI
GPT-3.5DecoderLMДиалог и общ езикOpenAI
GPTДайте инструкцииDecoderLMИнтензивни за знания диалогови или езикови задачиOpenAI
HTMLЕнкодер/ДекодерDAEЕзиков модел, който позволява структурирани HTML подканиFacebook
ИзображениеT5Предвиждане на надписиТекст към изображениеGoogle
ЛАМДАDecoderLMОбщо езиково моделиранеGoogle
LLaMADecoderLMРазумно разсъждение, отговаряне на въпроси, генериране на код и разбиране при четене.Meta
MinervaDecoderLMМатематически разсъжденияGoogle
дланDecoderLMЕзиково разбиране и генериранеGoogle
RoBERTaEncoderMLMРазбиране на езика и отговаряне на въпросиUW/Google
врабчеDecoderLMДиалогови агенти и общи приложения за генериране на език като Q&ADeep Mind
Стабилна дифузияЕнкодер/ДекодерПредсказване на надписиТекст към изображениеLMU Мюнхен + Stability.ai + Eleuther.ai
ВикунаDecoderLMДиалогови агентиUC Berkeley, CMU, Stanford, UC San Diego и MBZUAI

Въпроси и Отговори

Трансформаторите в AI са вид архитектура на дълбоко обучение което промени обработката на естествен език и други задачи. Те използват механизми за самовнимание, за да уловят връзките между думите в изречението, което им позволява да разберат и генерират човешки текст.

Кодерите и декодерите са компоненти, които обикновено се използват в модели от последователност към последователност. Енкодерите обработват входни данни, като текст или изображения, и ги преобразуват в компресирано представяне, докато декодерите генерират изходни данни въз основа на кодираното представяне, позволявайки задачи като езиков превод или надписи на изображения.

Слоевете на вниманието са компоненти, използвани в невронни мрежи, особено при моделите Transformer. Те позволяват на модела селективно да се фокусира върху различни части от входната последователност, като присвоява тегла на всеки елемент въз основа на неговата уместност, което позволява ефективно улавяне на зависимости и връзки между елементите.

Фино настроените модели се отнасят до предварително обучени модели, които са били допълнително обучени за конкретна задача или набор от данни, за да се подобри тяхното представяне и да се адаптират към специфичните изисквания на тази задача. Този процес на фина настройка включва коригиране на параметрите на модела, за да се оптимизират неговите прогнози и да се направи по-специализиран за целевата задача.

Трансформаторите се считат за бъдещето на AI, защото са демонстрирали изключителна производителност в широк набор от задачи, включително обработка на естествен език, генериране на изображения и др. Тяхната способност да улавят дългосрочни зависимости и да обработват последователни данни ефективно ги прави много адаптивни и ефективни за различни приложения, проправяйки пътя за напредък в генеративния AI и революционизирайки много аспекти на обществото.

Най-известните трансформаторни модели в AI включват BERT (двупосочни енкодерни представяния от трансформатори), GPT (генеративен предварително обучен трансформатор) и T5 (трансформатор за прехвърляне от текст към текст). Тези модели са постигнали забележителни резултати в различни задачи за обработка на естествен език и са придобили значителна популярност в изследователската общност на AI.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Nexo инициира „лов“ за възнаграждение на потребителите с $12 милиона в NEXO токени за ангажиране с неговата екосистема
пазари Новини Технологии
Nexo инициира „лов“ за възнаграждение на потребителите с $12 милиона в NEXO токени за ангажиране с неговата екосистема
Май 8, 2024
Revolut X Exchange на Revolut увлича крипто търговци с нулеви такси за създаване и разширен анализ
пазари Софтуер Истории и рецензии Технологии
Revolut X Exchange на Revolut увлича крипто търговци с нулеви такси за създаване и разширен анализ
Май 8, 2024
Lisk официално преминава към Ethereum Layer 2 и разкрива Core v4.0.6
Новини Технологии
Lisk официално преминава към Ethereum Layer 2 и разкрива Core v4.0.6
Май 8, 2024
Нови мем монети от май 2024 г.: 7 избора за крипто фенове
резюме пазари Технологии
Нови мем монети от май 2024 г.: 7 избора за крипто фенове
Май 8, 2024
CRYPTOMERIA LABS PTE. LTD.