Новостной репортаж Технологии
28 сентября, 2023

Meta представляет Emu для улучшения генерации изображений ИИ

Коротко

Meta AI разработала метод улучшения моделей генерации изображений с помощью фотогеничных иголок в стоге сена.

Этот процесс включает в себя предварительную подготовку модели диффузии на обширном наборе данных с использованием текстовых кодировщиков для достижения разрешения 1024×1024 пикселей.

Набор данных подвергается тщательной фильтрации, при этом человеческий опыт отсеивает некачественные изображения.

Emu: инновационный подход Meta AI для улучшения моделей генерации изображений

Meta AI недавно поделился своим статья про исследование подробно описывая новый подход, разработанный для улучшения создания наклеек и изображений в рамках своих услуг. Статья под названием «Emu: улучшение моделей генерации изображений с помощью фотогеничных игл в стоге сена,Целью проекта является демонстрация того, как «качественно настроенный» метод обучения может значительно повысить качество генерации изображений — даже на небольшом наборе данных.

Мета Метод предварительного обучения и детали модели

Начальный этап включает в себя предварительное обучение модели распространения с использованием обширного набора данных, содержащего 1.1 миллиарда пар изображения и текста из внутренних ресурсов Meta AI. Этап основан на модели U-Net с огромными 2.8 миллиардами параметров. Совместно с моделью используются кодировщики текста, а именно CLIP ViT-L и T5-XXL. Конечная цель модели — создание изображения разрешением 1024×1024 пикселей.

Набор данных модели подвергается строгой фильтрации, исключающей более 200,000 XNUMX образцов из пула, насчитывающего более миллиарда примеров. Применяются многочисленные фильтры, в том числе классификаторы, оценивающие эстетику изображения, механизмы отбрасывания нежелательного контента, оптическое распознавание символов (OCR) для исключения изображений с большим количеством текста, а также фильтрация на основе разрешения и пропорций. Показатели популярности, такие как лайки, также влияют на процесс фильтрации.

Похожие страницы:: Meta представляет интеграцию искусственного интеллекта во все сервисы: от генеративной модели Emu до умных очков

На этом этапе центральное место занимает человеческий опыт. Специалисты широкого профиля, люди, обладающие полным пониманием аннотаций данных, оценивают оставшиеся 200,000 20,000 изображений и собирают подмножество из XNUMX XNUMX. Основная цель здесь — идентифицировать и удалить значительно некачественные изображения в случае, если эвристика, использованная на предыдущем этапе, окажется неадекватной.

Похожие страницы:: Meta представляет 28 AI-персонажей и AI Studio для расширения возможностей творчества

Мастерство создания изображений Emu

Команда специалистов по фотографии, хорошо разбирающихся в принципах фотографии, берет на себя задачу фильтрации и отбора изображений. Их цель — идентифицировать и сохранить изображения с высочайшим эстетическим качеством. Они тщательно учитывают такие факторы, как композиция, освещение, цветовые схемы, контрасты, тематическая актуальность и фон.

Последний штрих — тщательное создание высококачественных текстовых аннотаций для тщательно подобранного набора данных из 2,000 пар «изображение-текст».

Наконец, модель обучается на этом уточненном наборе данных, выполняя 15,000 64 шагов с размером пакета XNUMX. Этот размер пакета относительно мал по сравнению с большим размером. генеративные модели. Хотя модель может показаться переобученной из-за потерь при проверке, человеческие оценки показывают обратное. Аналогичное явление наблюдалось и в языковых моделях.

Благодаря этому организованному многоэтапному процессу Meta AI достигает высокого качества. генерация изображения. Эта методология не только направлена ​​на повышение практической пользы от их услуг, но также подчеркивает важность тщательного курирования и человеческого опыта в совершенствовании контента, создаваемого ИИ. Для получения более подробной информации вы можете изучить полную статьи.

Пример генерации для тех же подсказок. Слева — модель после шага 1 (то есть просто предварительно обучиться, не возясь с данными), а справа — после прохождения всех процедур.

Читайте другие связанные темы:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
Бизнес Новостной репортаж Технологии
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
3 мая 2024
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
Области применения: Новостной репортаж Технологии
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
3 мая 2024
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
Области применения: Новостной репортаж Технологии
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
3 мая 2024
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
Бизнес Новостной репортаж Технологии
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
3 мая 2024
CRYPTOMERIA LABS PTE. ООО