Nvidia анонсувала eDiff-I: новий генеративний штучний інтелект для синтезу тексту та зображень із миттєвою передачею стилів
Коротко
Nvidia запускає eDiff-I, щоб допомогти компаніям створювати високоякісні та привабливі зображення
Техніка eDiff-I регулярно забезпечує кращу якість синтезу, ніж DALL-E2 і Stable diffusion
eDiff-I — це новий інструмент для створення контенту штучного інтелекту, який забезпечує безпрецедентні можливості синтезу тексту в зображення для маркетологів і компаній, як нещодавно було оголошено Nvidia. За допомогою eDiff-I компанії можуть швидко та легко створювати високоякісні, привабливі візуальні матеріали без дорогого обладнання чи професійної допомоги. eDiff-I використовує обробку природної мови (NLP) для інтерпретації введених користувачем даних і створення відповідних зображень. Потім ШІ аналізує зображення та вибирає найбільш підходяще на основі контексту. Результатом є високоякісне зображення професійного вигляду, яке можна використовувати для різних цілей, наприклад для маркетингових матеріалів, публікацій у соціальних мережах, кампаній електронною поштою тощо.
eDiff-I – це a генеративний ШІ наступного покоління інструмент для створення вмісту, який забезпечує безпрецедентні можливості перетворення тексту в зображення синтез, швидка передача стилю та інтуїтивне малювання словами. Як дифузійна модель для створення візуальних зображень із тексту, eDiff-I пропонує навчити ансамбль експертних мереж шумозаглушення, кожна спеціалізована на певному шумовому інтервалі, у відповідь на емпіричне відкриття, що поведінка дифузійних моделей змінюється на різних фазах вибірки.
Вбудовування тексту T5, вбудовування зображень CLIP і вбудовування тексту CLIP є основою для концепції eDiff-I. Ця методологія може створити фотореалістичну графіку у відповідь на будь-який текстовий запит.
Він надає дві додаткові можливості на додаток до синтезу тексту в зображення: (1) передача стилю, що дозволяє нам керувати стилем створеного зразка за допомогою еталонного зображення стилю, і (2) інструмент «Малювання словами» що дозволяє користувачам створювати зображення, малюючи карти сегментації на полотні.
Конвеєр складається з каскаду з трьох моделей дифузії: базової моделі, яка може створювати зразки з роздільною здатністю 64 × 64, і двох стеків із надвисокою роздільною здатністю, які можуть поступово підвищувати роздільну здатність зображень до роздільної здатності 256 × 256 і 1024 × 1024 відповідно. Моделі обчислюють T5 XXL і вбудовування тексту після отримання підпису як вхідних даних. Ці вбудовані зображення можна використовувати як вектор стилю. Потім додайте ці вбудовування в наш каскад дифузійні моделі, які поступово створюють зображення з роздільною здатністю 1024 x 1024.
Підхід eDiff-I постійно забезпечує кращу якість синтезу порівняно з алгоритмами перетворення тексту в зображення з відкритим кодом (Stable diffusion) і (DALL-E2).
Коли використовуються вбудовані зображення CLIP, підхід eDiff-I полегшує передачу стилю. eDiff-I спочатку витягує CLIP вбудовування зображень із зображення еталонного стилю, яке можна використовувати як еталонний вектор стилю. Стилістичне посилання можна побачити на малюнку ліворуч на панелі нижче. Результати, коли ввімкнено кондиціонування стилю, відображаються на центральній панелі. Результати, коли обумовлення стилю вимкнено, відображаються на панелі праворуч. Коли застосовано обумовлення стилю, модель eDiff-I створює результати, які також відповідають стилю вхідного підпису. Коли кондиціювання стилю вимкнено, знімки виглядають природно.
Вибираючи фрази та накреслюючи їх на зображенні, користувачі методу eDiff-I можуть змінювати розташування речей, які перераховані в текстовому запиті. Після цього модель використовує підказка та карти для створення зображень які сумісні з підписом і картою введення.
Читайте відповідні статті:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.