StyleGAN-T: самое быстрое преобразование текста в изображение, дающее результаты менее чем за 0.1 секунды.
Коротко
StyleGAN-T — это новый GAN для генерации tex2image.
Этот GAN дает хорошие результаты и даже довольно быстр (0.1 секунды для изображения 512 × 512).
Новая архитектура основана на StyleGAN-XL, но в ней пересмотрены конструкции генератора и дискриминатора.
Вы наверняка заметили, что GAN больше не обсуждаются, когда поднимается тема генерации изображений. После диффузионных моделей, таких как Stable Diffusion появились, ГАНы как-то отошли на второй план. Это потому, что их сложно тренировать, и они часто спотыкаются. Единственным преимуществом GAN было то, что, в отличие от диффузионных моделей, они создают изображение за один прогон («прямой проход») вместо множества прогонов.
Но вот на поле вышел новый игрок из GAN: СтильGAN-T. Этот GAN для преобразования текста в изображение быстро дает хорошие результаты, так как для изображения 0.1 × 512 требуется всего 512 секунды. Новая архитектура основана на StyleGAN-XL, но в ней пересмотрены конструкции генератора и дискриминатора и используется CLIP для выравнивания текстовых подсказок и сгенерированной графики.
Связанная статья: VToonify: модель искусственного интеллекта в реальном времени для создания художественных портретных видео. |
В целом StyleGAN-T теперь создает преобразование текста в изображение быстрее и точнее, чем другие GAN. Однако GAN по-прежнему ужасен, и о качестве полноразмерной SD-модели явно не может быть и речи. Но все будет зависеть от способности создавать из текста чрезвычайно качественные изображения менее чем за секунду в год. Кроме того, он будет находиться где-то между GAN и диффузионная модель.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.