Березня 20, 2023

Нова модель перетворення тексту в зображення GigaGAN може створювати зображення 4K за 3.66 с

Опубліковано: 20 березня 2023 о 4:10 Оновлено: 20 березня 2023 о 4:11

Коротко

Дослідники розробили нову модель перетворення тексту в зображення під назвою GigaGAN, яка може генерувати зображення 4K за 3.66 секунди.

Він заснований на структурі GAN (generative adversarial network), яка є різновидом нейронної мережі які можуть навчитися генерувати дані, подібні до навчального набору даних. GigaGAN здатний генерувати зображення 512 пікселів за 0.13 секунди, що в 10 разів швидше, ніж попередня найсучасніша модель, і має безперервний, безперервний і контрольований латентний простір.

Його також можна використовувати для навчання ефективного високоякісного апсемплера.

Дослідники розробили нову модель перетворення тексту в зображення під назвою ГігаГАН які можуть генерувати 4K зображень за 3.66 секунди. Це суттєве покращення порівняно з існуючими моделями перетворення тексту в зображення, у яких для створення одного зображення можуть знадобитися хвилини або навіть години.

Нова модель перетворення тексту в зображення GigaGAN може генерувати зображення 4K за 3.66 с

GigaGAN базується на структурі GAN (generative adversarial network), яка є типом нейронної мережі, яка може навчитися генерувати дані, подібні до навчального набору даних. GAN використовувалися для створення реалістичних зображень облич, пейзажів і навіть зображень Street View.

Детальніше: 5+ найбільш очікуваних моделей штучного інтелекту з перетворенням тексту в зображення 2023 року

Нову модель було навчено на наборі даних із 1 мільярда зображень, що на порядки більше, ніж набори даних, які використовувалися для навчання попередніх моделей перетворення тексту в зображення. У результаті GigaGAN може створювати зображення 512 пікселів за 0.13 секунди, що більш ніж у 10 разів швидше, ніж попередня найсучасніша модель перетворення тексту в зображення.

Крім того, GigaGAN поставляється з розділеним, безперервним і контрольованим латентним простором. Це означає, що GigaGAN може генерувати зображення, які мають різні стилі, і що створеними зображеннями можна певною мірою керувати. Наприклад, GigaGAN може генерувати зображення, які зберігають макет введеного тексту, що важливо для додатків, наприклад, коли генеруються зображення макетів продуктів з текстових описів.

GigaGAN також можна використовувати для навчання ефективного високоякісного апсемплера. Це можна застосувати до реальних зображень або до результатів інших моделі перетворення тексту в зображення.

Гілка кодування тексту, мережа відображення стилів, багатомасштабна мережа синтезу, а також стабільна увага й адаптивний вибір ядра — усе це частина генератора GigaGAN. Розробники починають гілку кодування тексту, витягуючи вбудовані тексти за допомогою попередньо навченої моделі CLIP і вивчених рівнів уваги T. Подібно до СтильГАН, вбудовування передається до мережі відображення стилів M, яка генерує вектор стилю w. Щоб створити піраміду зображень, мережа синтезу тепер використовує код стилю як модуляцію, а вбудовування тексту як увагу. Крім того, розробники запровадили вибір ядра, що адаптується до зразків, щоб адаптивно вибирати ядра згортки на основі кондиціонування вхідного тексту.

Дискримінатор, як і генератор, має дві гілки для обробки зображення і кондиціювання тексту. Текстова гілка, як і генератор, обробляє текст. Гілці зображень надається піраміда зображень і їй доручається робити незалежні прогнози для кожного масштабу зображення. Крім того, прогнози робляться на всіх наступних масштабах рівня зниження дискретизації. Додаткові втрати також використовуються для стимулювання ефективної конвергенції.

Як показано на сітці інтерполяції, GigaGAN забезпечує плавну інтерполяцію між підказками. Чотири кути створюються за допомогою того самого латентного z, але з різними текстовими підказками.

Оскільки GigaGAN зберігає прихований простір, розробники можуть поєднувати грубий стиль одного зразка з тонким стилем іншого. GigaGAN також може керувати стилем безпосередньо за допомогою текстових підказок.

Читайте більше пов’язаних статей:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов