15 марта 2023

Facebook разрабатывает новый метод удвоения производительности ИИ-трансформеров

Опубликовано: 15 марта 2023 г., 4:00 Обновлено: 15 марта 2023 г., 4:00

Коротко

Facebook разработал новый метод удвоения производительности ИИ-трансформеров на основе архитектуры трансформатора.

Новый метод находит наиболее похожие патчи в промежутках между обработкой разных блоков и объединяет их для снижения вычислительной сложности.

Facebook разработал Новый метод для удвоения производительности трансформаторов AI. Метод на основе трансформаторной архитектуры и специально разработан для длинных текстов, таких как книги, статьи и блоги. Цель нового ИИ-преобразователя — повысить производительность модели на базе трансформатора на длинном тексте, сделав их более эффективными и действенными при обработке длинных последовательностей. Результаты ИИ-трансформера очень многообещающие, и у этого нового метода есть шанс помочь улучшить производительность моделей на основе трансформеров в самых разных задачах.

Ожидается, что этот новый метод окажет значительное влияние на задачи обработки естественного языка, такие как языковой перевод, обобщение и системы ответов на вопросы. Также ожидается, что это приведет к разработке более сложных моделей ИИ, способных обрабатывать более длинные и сложные тексты.

Facebook разработал новый метод удвоения производительности ИИ-трансформеров

Прочитайте больше: 10+ лучших фоторедакторов AI 2023: онлайн и бесплатно

Для обработки изображения современные трансформеры разрезают его на участки (обычно квадраты: см. гифку ниже), а затем оперируют представлениями этих частиц, каждое из которых представлено «фишкой». Преобразователи, как мы знаем, работают медленнее, чем больше этих токенов (это относится как к текстам, так и к изображениям), и наиболее распространенный преобразователь имеет квадратичную зависимость. То есть чем больше токенов добавляется, тем медленнее становится обработка. Чтобы решить эту проблему, исследователи предложили различные методы уменьшения количества токенов, необходимых для обработки изображений, такие как иерархическое и адаптивное объединение. Эти методы направлены на поддержание качества вывода при минимальных вычислительных затратах.

Новый метод находит наиболее похожие патчи в промежутках между обработкой разных блоков и объединяет их для снижения вычислительной сложности. Доля объединенных токенов — это гиперпараметр; чем он выше, тем ниже качество, но и выше ускорение. Эксперименты показывают, что можно объединить примерно 40% токенов с потерей качества 0.1-0.4% и получить двойное ускорение (таким образом потребляя меньше памяти). Этот новый метод является многообещающим решением для снижения вычислительной сложности обработки изображений и может обеспечить более быструю и эффективную обработку без ущерба для качества конечного результата.

Когда мы визуализируем, какие патчи мы объединяем, мы видим, что они 1) рядом друг с другом и 2) описывают один и тот же объект (см. области одного цвета на GIF). То есть никакая важная информация не теряется; объект остается «в поле зрения» модели. Чем позже это применяется в преобразователе, тем больше токенов объединяется (поскольку это представления более высокого уровня, которые сами по себе хорошо описывают содержимое изображения).

Такие инженерные подходы, основанные на изобретательности и понимании того, как что-то работает, выглядят очень привлекательно. Кроме того, разработчики Meta обещают привнести больше в StableDiffusion, чтобы ускорить процесс. Здорово, что трансформеры повсюду, и такие трюки можно быстро реализовать в самых разных моделях. Это показывает, что инженерные решения могут оказывать широкое влияние на различные отрасли. Будет интересно посмотреть, как эти достижения в модели трансформеры будет продолжать развиваться и улучшаться с течением времени.

Мета-ИИ и Paperswithcode выпустили первую модель 120B Galactica, обученную на научных текстах, что позволяет делать более точные и быстрые прогнозы. Цель Galactica — помочь исследователям отделить важное от второстепенного.

Читайте больше связанных новостей:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов