Новински извештај
Март КСНУМКС, КСНУМКС

Нови модел за претварање текста у слику ГигаГАН може да генерише 4К слике за 3.66 с

Укратко

Истраживачи су развили нови модел текста у слику под називом ГигаГАН који може да генерише 4К слике за 3.66 секунди.

Заснован је на ГАН (генеративна адверсариал нетворк) оквиру, који је врста неуронска мрежа који може научити да генерише податке сличне скупу података за обуку. ГигаГАН је у стању да генерише слике од 512 пиксела за 0.13 секунди, 10 пута брже од претходног најсавременијег модела, и има распетљани, континуирани и контролисани латентни простор.

Такође се може користити за обуку ефикасног, квалитетнијег упсамплер-а.

Истраживачи су развили нови модел текста у слику под називом ГигаГАН која може да генерише 4К слике за 3.66 секунди. Ово је велико побољшање у односу на постојеће моделе текста у слику, за које може бити потребно неколико минута или чак сати да се генерише једна слика.

Нови модел текста у слику ГигаГАН може да генерише 4К слике при 3.66 с

ГигаГАН је заснован на ГАН (генеративна адверсариал мрежа) оквиру, који је тип неуронске мреже која може научити да генерише податке који су слични скупу података за обуку. ГАН-ови су коришћени за генерисање реалистичних слика лица, пејзажа, па чак и слика Стреет Виев-а.

Опширније: 5+ најишчекиванијих АИ модела за претварање текста у слику 2023

Нови модел је обучен на скупу података од 1 милијарде слика, што је за редове величине веће од скупова података који су коришћени за обуку ранијих модела текста у слику. Као резултат тога, ГигаГАН је у стању да генерише слике од 512 пиксела за 0.13 секунди, што је више од 10 пута брже од претходног најсавременијег модела текста у слику.

Поред тога, ГигаГАН долази са растављеним, континуираним и контролисаним латентним простором. То значи да ГигаГАН може да генерише слике које имају низ различитих стилова и да се генерисане слике могу донекле контролисати. На пример, ГигаГАН може да генерише слике које чувају изглед уноса текста, што је важно за апликације, на пример, када се генеришу слике изгледа производа из текстуалних описа.

ГигаГАН се такође може користити за обуку ефикасног, квалитетнијег упсамплера. Ово се може применити на стварне слике или на излазе других модели текста у слику.

Грана за кодирање текста, мрежа мапирања стилова, мрежа синтезе на више нивоа и стабилна пажња и адаптивни избор кернела су све део ГигаГАН генератора. Програмери започињу грану кодирања текста издвајањем уградње текста са унапред обученим ЦЛИП моделом и наученим слојевима пажње Т. Слично СтилеГАН, уграђивање се прослеђује мрежи за мапирање стила М, која генерише вектор стила в. За генерисање пирамиде слике, мрежа синтезе сада користи код стила као модулацију и уграђивање текста као пажњу. Штавише, програмери уводе избор кернела који се прилагођава узорцима да би селектовао конволуциона језгра адаптивно на основу условљености уносног текста.

Дискриминатор, као и генератор, има две гране за обраду слике и кондиционирање текста. Грана текста, као и генератор, обрађује текст. Грана слике добија пирамиду слике и има задатак да направи независна предвиђања за сваку скалу слике. Штавише, предвиђања се врше на свим наредним скалама слојева за смањење узорковања. Додатни губици се такође користе за подстицање ефективне конвергенције.

Као што је приказано у интерполационој мрежи, ГигаГАН омогућава глатку интерполацију између упита. Четири угла су креирана користећи исти латентни з, али различите текстуалне упите.

Пошто ГигаГАН чува растављени латентни простор, програмери могу комбиновати груби стил једног узорка са финим стилом другог. ГигаГАН такође може директно да контролише стил помоћу текстуалних упита.

Прочитајте још сродних чланака:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више

Оснивачи новчаника Самоураи оптужени за омогућавање 2 милијарде долара у Даркнет пословима

Хапшење оснивача новчаника Самоураи представља значајан корак уназад за индустрију, наглашавајући упорне ...

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Пантера Цапитал улаже у ТОН Блоцкцхаин, изражава поверење у Телеграмов потенцијал да прошири крипто доступност
Posao Новински извештај технологија
Пантера Цапитал улаже у ТОН Блоцкцхаин, изражава поверење у Телеграмов потенцијал да прошири крипто доступност
Може 2, 2024
Митосис прикупља 7 милиона долара у финансирању од компаније Амбер Гроуп и Форесигхт Вентурес да унапреди свој модуларни протокол ликвидности
Posao Новински извештај технологија
Митосис прикупља 7 милиона долара у финансирању од компаније Амбер Гроуп и Форесигхт Вентурес да унапреди свој модуларни протокол ликвидности
Може 2, 2024
Галке се удружио са Јамбоом како би проширио глобалну доступност Web3
Posao Новински извештај технологија
Галке се удружио са Јамбоом како би проширио глобалну доступност Web3
Може 2, 2024
Члан законодавног савета Хонг Конга Ву Јиезхуанг сигнализира грађанску тужбу против ЈПЕКС крипто размене
Posao Новински извештај технологија
Члан законодавног савета Хонг Конга Ву Јиезхуанг сигнализира грађанску тужбу против ЈПЕКС крипто размене
Може 2, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.