StyleGAN-T: найшвидша генерація тексту в зображення, яка дає результати менш ніж за 0.1 секунди
Коротко
StyleGAN-T — це новий GAN для покоління tex2image.
Цей GAN дає хороші результати та навіть досить швидкий (0.1 с для зображення 512×512).
Нова архітектура базується на StyleGAN-XL, але вона переоцінює конструкції генератора та дискримінатора.
Ви напевно помітили, що GAN більше не обговорюються, коли виникає тема створення зображень. Після дифузії моделі, як Stable Diffusion виникли, GAN якось відійшли на задній план. Це пояснюється тим, що їх важко дресирувати і вони часто спотикаються. Єдина перевага GAN полягала в тому, що, на відміну від дифузійних моделей, вони створювали зображення за один цикл («прохід вперед») замість багатьох циклів.
Але тепер на поле вийшов новий гравець із GAN: СтильГАН-Т. Цей GAN для генерації тексту в зображення дає гарні результати швидко, оскільки для зображення 0.1×512 потрібно лише 512 секунди. Нова архітектура базується на StyleGAN-XL, але вона переоцінює конструкції генератора та дискримінатора та використовує CLIP для вирівнювання текстових підказок та генерованої графіки.
Пов'язана стаття: VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео |
Загалом StyleGAN-T тепер створює перетворення тексту в зображення швидше й точніше, ніж інші GAN. Однак GAN все ще жахливий, і про якість повнорозмірної моделі SD явно не може бути й мови. Але все залежатиме від здатності створювати надзвичайно якісні зображення з тексту менш ніж за секунду на рік. Крім того, він буде десь між GAN і дифузійна модель.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.