Звіт про новини Технологія
Вересень 28, 2023

Meta представляє Emu для покращення генерації зображень AI

Коротко

Meta AI розробила метод покращення моделей генерації зображень за допомогою фотогенічних голок у стозі сіна.

Процес передбачає попереднє навчання дифузійної моделі на величезному наборі даних із використанням текстових кодерів для досягнення роздільної здатності 1024×1024 пікселів.

Набір даних проходить ретельну фільтрацію, завдяки людському досвіду, який відсіює неякісні зображення.

Emu: інноваційний підхід Meta AI для вдосконалення моделей генерації зображень

Meta AI нещодавно поділився своїм дипломну роботу детально описуючи новий підхід, розроблений для покращення створення стікерів і зображень у своїх службах. Стаття під назвою «Emu: покращення моделей генерації зображень за допомогою фотогенних голок у стозі сіна,» має на меті продемонструвати, як «настроєний на якість» метод навчання може значно підвищити якість створення зображень — навіть на невеликому наборі даних.

Мета Метод попереднього навчання та деталі моделі

Початковий етап передбачає попереднє навчання дифузійної моделі з використанням величезного набору даних, що складається з 1.1 мільярда пар зображення та тексту з внутрішніх ресурсів Meta AI. Ця фаза базується на моделі U-Net із величезною кількістю 2.8 мільярда параметрів. У поєднанні з моделлю використовуються кодери тексту, а саме CLIP ViT-L і T5-XXL. Кінцева мета моделі — створити зображення з роздільною здатністю 1024×1024 пікселів.

Набір даних моделі проходить сувору фільтрацію, видаляючи понад 200,000 XNUMX зразків із пулу з понад мільярда прикладів. Застосовується кілька фільтрів, у тому числі класифікатори, які оцінюють естетику зображення, механізми відкидання небажаного вмісту, оптичне розпізнавання символів (OCR) для виключення зображень із вмістом тексту, а також фільтрація на основі роздільної здатності та пропорцій. Показники популярності, наприклад оцінки "подобається", також впливають на процес фільтрації.

споріднений: Meta представляє інтеграцію штучного інтелекту в усі сервіси, від Generative Emu Model до Smart Glasses

На цьому етапі людський досвід займає центральне місце. Спеціалісти широкого профілю, особи, які володіють повним розумінням анотації даних, оцінюють решту 200,000 20,000 зображень і збирають підмножину з XNUMX XNUMX. Основна мета тут полягає в тому, щоб ідентифікувати та видалити значно нерівні зображення, якщо евристика, використана на попередньому кроці, виявиться неадекватною.

споріднений: Meta представляє 28 персонажів штучного інтелекту та студію штучного інтелекту для розширеної творчості

Спроможність Emu створювати імідж

Команда спеціалістів із фотографії, які добре знають принципи фотографії, бере на себе завдання фільтрації та відбору зображень. Їхня мета – виявити та зберегти зображення найвищої естетичної якості. Вони ретельно враховують такі фактори, як композиція, освітлення, колірні схеми, контрасти, тематична доречність і фон.

Останнім штрихом є ретельне створення високоякісних текстових анотацій для цього підібраного набору даних із 2,000 пар зображення та тексту.

Нарешті, модель тренується на цьому вдосконаленому наборі даних, виконуючи 15,000 64 кроків із розміром пакета XNUMX. Цей розмір пакета відносно малий порівняно з великим генеративні моделі. Хоча модель може виглядати перетренованою на основі втрати перевірки, людські оцінки свідчать про інше. Подібне явище спостерігалося в мовних моделях.

Завдяки цьому організованому багатоетапному процесу Meta AI досягає високої якості генерація зображень. Ця методологія спрямована не лише на підвищення практичних переваг їхніх послуг, але й підкреслює важливість ретельного курування та людського досвіду для вдосконалення контенту, створеного ШІ. Щоб отримати додаткові відомості, ви можете дослідити повну версію статті.

Приклад генерації для тих самих підказок. Ліворуч – модель після кроку 1 (тобто лише перед навчанням, без возитися з даними), а праворуч – після проходження всіх процедур.

Читайте більше пов’язаних тем:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Sophon запускає Liquidity Farming, виділяючи 10% загальної пропозиції токенів SOPH для винагороди учасників
ринки Звіт про новини Технологія
Sophon запускає Liquidity Farming, виділяючи 10% загальної пропозиції токенів SOPH для винагороди учасників
18 Червня, 2024.
API3 представляє стек Oracle на бітовому рівні для розширеного досвіду розробника
Звіт про новини Технологія
API3 представляє стек Oracle на бітовому рівні для розширеного досвіду розробника
18 Червня, 2024.
Зменшення забруднення? Як колишні енергетичні свині біткойна прагнуть зупинити викид вуглецю ШІ
Думка Business ринки Софтвер Технологія
Зменшення забруднення? Як колишні енергетичні свині біткойна прагнуть зупинити викид вуглецю ШІ
18 Червня, 2024.
dForce представляє децентралізований стейблкойн sUSX для отримання прибутку, забезпечуючи користувачам підвищену ліквідність
Звіт про новини Технологія
dForce представляє децентралізований стейблкойн sUSX для отримання прибутку, забезпечуючи користувачам підвищену ліквідність
18 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.