Meta представляет Emu для улучшения генерации изображений ИИ
Коротко
Meta AI разработала метод улучшения моделей генерации изображений с помощью фотогеничных иголок в стоге сена.
Этот процесс включает в себя предварительную подготовку модели диффузии на обширном наборе данных с использованием текстовых кодировщиков для достижения разрешения 1024×1024 пикселей.
Набор данных подвергается тщательной фильтрации, при этом человеческий опыт отсеивает некачественные изображения.
Meta AI недавно поделился своим статья про исследование подробно описывая новый подход, разработанный для улучшения создания наклеек и изображений в рамках своих услуг. Статья под названием «Emu: улучшение моделей генерации изображений с помощью фотогеничных игл в стоге сена,Целью проекта является демонстрация того, как «качественно настроенный» метод обучения может значительно повысить качество генерации изображений — даже на небольшом наборе данных.
Мета Метод предварительного обучения и детали модели
Начальный этап включает в себя предварительное обучение модели распространения с использованием обширного набора данных, содержащего 1.1 миллиарда пар изображения и текста из внутренних ресурсов Meta AI. Этап основан на модели U-Net с огромными 2.8 миллиардами параметров. Совместно с моделью используются кодировщики текста, а именно CLIP ViT-L и T5-XXL. Конечная цель модели — создание изображения разрешением 1024×1024 пикселей.
Набор данных модели подвергается строгой фильтрации, исключающей более 200,000 XNUMX образцов из пула, насчитывающего более миллиарда примеров. Применяются многочисленные фильтры, в том числе классификаторы, оценивающие эстетику изображения, механизмы отбрасывания нежелательного контента, оптическое распознавание символов (OCR) для исключения изображений с большим количеством текста, а также фильтрация на основе разрешения и пропорций. Показатели популярности, такие как лайки, также влияют на процесс фильтрации.
Похожие страницы:: Meta представляет интеграцию искусственного интеллекта во все сервисы: от генеративной модели Emu до умных очков |
На этом этапе центральное место занимает человеческий опыт. Специалисты широкого профиля, люди, обладающие полным пониманием аннотаций данных, оценивают оставшиеся 200,000 20,000 изображений и собирают подмножество из XNUMX XNUMX. Основная цель здесь — идентифицировать и удалить значительно некачественные изображения в случае, если эвристика, использованная на предыдущем этапе, окажется неадекватной.
Похожие страницы:: Meta представляет 28 AI-персонажей и AI Studio для расширения возможностей творчества |
Мастерство создания изображений Emu
Команда специалистов по фотографии, хорошо разбирающихся в принципах фотографии, берет на себя задачу фильтрации и отбора изображений. Их цель — идентифицировать и сохранить изображения с высочайшим эстетическим качеством. Они тщательно учитывают такие факторы, как композиция, освещение, цветовые схемы, контрасты, тематическая актуальность и фон.
Последний штрих — тщательное создание высококачественных текстовых аннотаций для тщательно подобранного набора данных из 2,000 пар «изображение-текст».
Наконец, модель обучается на этом уточненном наборе данных, выполняя 15,000 64 шагов с размером пакета XNUMX. Этот размер пакета относительно мал по сравнению с большим размером. генеративные модели. Хотя модель может показаться переобученной из-за потерь при проверке, человеческие оценки показывают обратное. Аналогичное явление наблюдалось и в языковых моделях.
Благодаря этому организованному многоэтапному процессу Meta AI достигает высокого качества. генерация изображения. Эта методология не только направлена на повышение практической пользы от их услуг, но также подчеркивает важность тщательного курирования и человеческого опыта в совершенствовании контента, создаваемого ИИ. Для получения более подробной информации вы можете изучить полную статьи.
Читайте другие связанные темы:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.