Март 20, 2023

Новият модел за текст към изображение GigaGAN може да генерира 4K изображения за 3.66 s

Публикувано: 20 март 2023 г. в 4:10 ч. Актуализирано: 20 март 2023 г. в 4:11 ч.

Накратко

Изследователите са разработили нов модел за текст към изображение, наречен GigaGAN, който може да генерира 4K изображения за 3.66 секунди.

Базиран е на рамката GAN (generative adversarial network), която е вид невронна мрежа които могат да се научат да генерират данни, подобни на набор от данни за обучение. GigaGAN е в състояние да генерира 512px изображения за 0.13 секунди, 10 пъти по-бързо от предишния най-съвременен модел, и има разплитащо, непрекъснато и контролируемо латентно пространство.

Може да се използва и за обучение на ефективен, по-висококачествен семплер.

Изследователите са разработили нов модел за текст към изображение, наречен GigaGAN които могат да генерират 4K изображения за 3.66 секунди. Това е голямо подобрение в сравнение със съществуващите модели текст към изображение, при които генерирането на едно изображение може да отнеме минути или дори часове.

Новият модел за текст към изображение GigaGAN може да генерира 4K изображения за 3.66 секунди

GigaGAN се основава на рамката GAN (generative adversarial network), която е вид невронна мрежа, която може да се научи да генерира данни, подобни на набор от данни за обучение. GAN са използвани за генериране на реалистични изображения на лица, пейзажи и дори изображения на Street View.

Чети повече: 5+ най-очакваните модели с изкуствен интелект от текст към изображение за 2023 г

Новият модел е обучен върху набор от данни от 1 милиард изображения, което е с порядъци по-големи от наборите от данни, използвани за обучение на по-ранни модели текст към изображение. В резултат на това GigaGAN е в състояние да генерира 512px изображения за 0.13 секунди, което е повече от 10 пъти по-бързо от предишния най-съвременен модел текст към изображение.

В допълнение, GigaGAN идва с разпръснато, непрекъснато и контролируемо латентно пространство. Това означава, че GigaGAN може да генерира изображения, които имат множество различни стилове и че генерираните изображения могат да бъдат контролирани до известна степен. Например GigaGAN може да генерира изображения, които запазват оформлението на въведения текст, което е важно за приложенията, например, когато генерирате изображения на продуктови оформления от текстови описания.

GigaGAN може да се използва и за обучение на ефективен, по-висококачествен upsampler. Това може да се приложи към реални изображения или към изходи на други модели текст към изображение.

Разклонение за кодиране на текст, мрежа за картографиране на стилове, мрежа за многомащабен синтез и стабилно внимание и адаптивен избор на ядро са част от генератора на GigaGAN. Разработчиците започват клона за кодиране на текст чрез извличане на текстови вграждания с предварително обучен CLIP модел и научени слоеве за внимание T. Подобно на StyleGAN, вграждането се предава на мрежата за картографиране на стил M, която генерира стиловия вектор w. За да генерира пирамида на изображението, мрежата за синтез сега използва кода на стила като модулация и вграждането на текст като внимание. Освен това, разработчиците въвеждат адаптивен към проба избор на ядро, за да избират адаптивно ядра за конволюция въз основа на кондиционирането на въведен текст.

Дискриминаторът, подобно на генератора, има два клона за обработка на изображението и кондициониране на текст. Текстовият клон, подобно на генератора, обработва текст. Клонът на изображението получава пирамида на изображението и има за задача да прави независими прогнози за всеки мащаб на изображението. Освен това се правят прогнози при всички последващи мащаби на слоя за понижаване на дискретизацията. Допълнителни загуби също се използват за насърчаване на ефективна конвергенция.

Както е показано в мрежата за интерполация, GigaGAN позволява плавна интерполация между подканите. Четирите ъгъла са създадени с помощта на същия скрит z, но различни текстови подкани.

Тъй като GigaGAN запазва разплетено латентно пространство, разработчиците могат да комбинират грубия стил на една проба с финия стил на друга. GigaGAN може също да контролира стила директно с текстови подкани.

Прочетете още свързани статии:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов