Новостной репортаж
20 марта 2023

Новая модель преобразования текста в изображение GigaGAN может генерировать изображения 4K за 3.66 с

Коротко

Исследователи разработали новую модель преобразования текста в изображение под названием GigaGAN, которая может генерировать изображения 4K за 3.66 секунды.

Он основан на структуре GAN (генеративно-состязательной сети), которая представляет собой тип нейронной сети которые могут научиться генерировать данные, подобные обучающему набору данных. GigaGAN может генерировать изображения с разрешением 512 пикселей за 0.13 секунды, что в 10 раз быстрее, чем предыдущая современная модель, и имеет распутанное, непрерывное и контролируемое скрытое пространство.

Его также можно использовать для обучения эффективного и высококачественного апсемплера.

Исследователи разработали новую модель преобразования текста в изображение под названием ГигаГАН которые могут генерировать Изображения 4K за 3.66 секунды. Это значительное улучшение по сравнению с существующими моделями преобразования текста в изображение, которые могут занимать минуты или даже часы для создания одного изображения.

Новая модель преобразования текста в изображение GigaGAN может генерировать изображения 4K за 3.66 с.

GigaGAN основан на структуре GAN (генеративно-состязательной сети), которая представляет собой тип нейронной сети, способной научиться генерировать данные, аналогичные обучающему набору данных. GAN использовались для создания реалистичных изображений лиц, пейзажей и даже изображений Street View.

Прочитайте больше: 5+ самых ожидаемых моделей ИИ для преобразования текста в изображение в 2023 году

Новая модель была обучена на наборе данных из 1 миллиарда изображений, что на несколько порядков больше, чем наборы данных, использовавшиеся для обучения более ранних моделей преобразования текста в изображение. В результате GigaGAN может генерировать изображения размером 512 пикселей за 0.13 секунды, что более чем в 10 раз быстрее, чем предыдущая современная модель преобразования текста в изображение.

Кроме того, GigaGAN поставляется с распутанным, непрерывным и контролируемым скрытым пространством. Это означает, что GigaGAN может генерировать изображения, имеющие множество различных стилей, и что сгенерированные изображения можно в некоторой степени контролировать. Например, GigaGAN может генерировать изображения, сохраняющие макет ввода текста, что важно для приложений, например, при создании изображений макетов продуктов из текстовых описаний.

GigaGAN также можно использовать для обучения эффективного и высококачественного апсемплера. Это может быть применено к реальным изображениям или к выходным данным других модели преобразования текста в изображение.

Ветвь кодирования текста, сеть сопоставления стилей, многомасштабная сеть синтеза, а также стабильное внимание и адаптивный выбор ядра являются частью генератора GigaGAN. Разработчики начинают ветвь кодирования текста, извлекая вложения текста с помощью предварительно обученной модели CLIP и изученных слоев внимания T. Аналогично СтильGAN, вложение передается в сеть отображения стилей M, которая генерирует вектор стиля w. Для создания пирамиды изображений сеть синтеза теперь использует код стиля в качестве модуляции и встраивания текста в качестве внимания. Кроме того, разработчики вводят адаптивный выбор ядра для выбора ядер свертки адаптивно на основе обработки входного текста.

Дискриминатор, как и генератор, имеет две ветви для обработки изображения и обработки текста. Текстовая ветвь, как и генератор, обрабатывает текст. Ветвь изображения получает пирамиду изображения, и ей поручено делать независимые прогнозы для каждого масштаба изображения. Кроме того, прогнозы делаются на всех последующих масштабах слоя пониженной дискретизации. Дополнительные потери также используются для поощрения эффективной конвергенции.

Как показано в сетке интерполяции, GigaGAN обеспечивает плавную интерполяцию между подсказками. Четыре угла создаются с использованием одного и того же скрытого z, но разных текстовых подсказок.

Поскольку GigaGAN сохраняет распутанное скрытое пространство, разработчики могут комбинировать грубый стиль одного образца с прекрасным стилем другого. GigaGAN также может напрямую управлять стилем с помощью текстовых подсказок.

Читайте больше статей по теме:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше

Основателей Samourai Wallet обвиняют в содействии сделкам в даркнете на 2 миллиарда долларов

Задержание основателей Samourai Wallet представляет собой заметную неудачу для отрасли, подчеркивая упорное...

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Pantera Capital инвестирует в блокчейн TON и выражает уверенность в потенциале Telegram расширить доступность криптовалют
Бизнес Новостной репортаж Технологии
Pantera Capital инвестирует в блокчейн TON и выражает уверенность в потенциале Telegram расширить доступность криптовалют
2 мая 2024
Mitosis привлекает финансирование в размере 7 миллионов долларов от Amber Group и Foresight Ventures для развития своего модульного протокола ликвидности
Бизнес Новостной репортаж Технологии
Mitosis привлекает финансирование в размере 7 миллионов долларов от Amber Group и Foresight Ventures для развития своего модульного протокола ликвидности
2 мая 2024
Galxe сотрудничает с Jambo, чтобы расширить глобальную доступность Web3
Бизнес Новостной репортаж Технологии
Galxe сотрудничает с Jambo, чтобы расширить глобальную доступность Web3
2 мая 2024
Член Законодательного совета Гонконга У Цзечжуан подает гражданский иск против криптобиржи JPEX
Бизнес Новостной репортаж Технологии
Член Законодательного совета Гонконга У Цзечжуан подает гражданский иск против криптобиржи JPEX
2 мая 2024
CRYPTOMERIA LABS PTE. ООО