Март 15, 2023

Facebook разработва нов метод за удвояване на производителността на AI Transformers

Публикувано: 15 март 2023 г. в 4:00 ч. Актуализирано: 15 март 2023 г. в 4:00 ч.

Накратко

Facebook разработи нов метод за удвояване на производителността на AI трансформатори, базиран на трансформаторната архитектура.

Новият метод намира най-сходните кръпки в празнините между обработката на различни блокове и ги комбинира, за да намали изчислителната сложност.

Facebook разработи a Нов метод за удвояване на производителността на AI трансформаторите. Методът е на базата на трансформаторната архитектура и е специално проектиран за дългосрочен текст като книги, статии и блогове. Целта на новия AI трансформатор е да подобри производителността на трансформаторни модели върху текст с дълга форма, като ги прави по-ефективни и ефективни при обработката на дълги поредици. Резултатите от AI трансформатора са много обещаващи и този нов метод има шанс да помогне за подобряване на производителността на базирани на трансформатор модели при различни задачи.

Очаква се този нов метод да има значително въздействие върху задачите за обработка на естествен език, като езиков превод, обобщение и системи за отговори на въпроси. Очаква се също така да доведе до разработването на по-сложни AI модели, които могат да обработват по-дълги и по-сложни текстове.

Facebook разработи нов метод за удвояване на производителността на AI трансформаторите

Чети повече: 10+ най-добри фоторедактори с изкуствен интелект за 2023 г.: онлайн и безплатно

За да обработят изображението, съвременните трансформатори го нарязват на парчета (обикновено квадрати: вижте gif-а по-долу) и след това работят върху представяния на тези частици, всяка от които е представена от „токен“. Трансформаторите, както знаем, работят по-бавно, колкото повече от тези токени има (това се отнася както за текстове, така и за изображения), а най-често срещаният трансформатор има квадратична връзка. Тоест, колкото повече токени се добавят, толкова по-бавна става обработката. За да се справят с този проблем, изследователите са предложили различни техники за намаляване на броя на жетоните, необходими за обработка на изображения, като йерархично и адаптивно обединяване. Тези методи имат за цел да поддържат качеството на изхода, като същевременно минимизират изчислителните разходи.

Новият метод намира най-сходните кръпки в празнините между обработката на различни блокове и ги комбинира, за да намали изчислителната сложност. Делът на обединените токени е хиперпараметър; колкото по-високо е то, толкова по-ниско е качеството, но и толкова по-високо е ускорението. Експериментите показват, че е възможно да се слеят приблизително 40% от жетоните със загуба на качество от 0.1-0.4% и да се получи двойно ускорение (като по този начин се изразходва по-малко памет). Този нов метод е обещаващо решение за намаляване на изчислителната сложност на обработката на изображения и може да позволи по-бърза и по-ефективна обработка, без да се компрометира качеството на крайния резултат.

Когато визуализираме кои пачове обединяваме, можем да видим, че те са 1) близо един до друг и 2) описват един и същи обект (вижте области с един и същи цвят на GIF). Тоест не се губи значима информация; обектът остава „в зрителното поле“ на модела. Колкото по-късно това се приложи в трансформатора, толкова повече токени се обединяват (тъй като това са представяния от по-високо ниво, които сами по себе си добре описват съдържанието на изображението).

Такива инженерни подходи, базирани на изобретателност и разбиране как работи нещо, изглеждат много привлекателни. Освен това разработчиците на Meta обещават да внесат повече в StableDiffusion, за да ускорят нещата и там. Страхотно е, че тъй като трансформаторите са навсякъде, такива трикове могат бързо да бъдат внедрени в широка гама от модели. Това показва потенциала инженерните решения да имат широко въздействие в различни индустрии. Ще бъде интересно да се види как ще влезе този напредък трансформаторни модели ще продължи да се развива и подобрява с течение на времето.

Meta AI и Paperswithcode пуснаха първия модел 120B Galactica, обучен върху научни текстове, което позволява по-точни и по-бързи прогнози. Целта на Galactica е да помогне на изследователите да отделят важното от неуместното.

Прочетете още свързани новини:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов