Новински извештај технологија
Januar 24, 2023

ГЛИГЕН: нови модел генерисања замрзнутог текста у слику са граничним оквиром

Укратко

ГЛИГЕН, или Гроундед-Лангуаге-то-Имаге Генератион, је нова техника која се надограђује и проширује способност тренутних унапред обучених модела дифузије.

Са уносима услова за натписе и оквире, ГЛИГЕН модел генерише текст2имг заснован на отвореном свету.

ГЛИГЕН може да генерише различите објекте на одређеним местима и стиловима користећи знање из унапред обученог тект2имг модела.

ГЛИГЕН такође може да уземљи људске кључне тачке док генерише текст у слике.

Модели дифузије текста у слику великих размера су прешли дуг пут. Међутим, тренутна пракса је ослањање искључиво на унос текста, што може ограничити могућност контроле. ГЛИГЕН, или Гроундед-Лангуаге-то-Имаге Генератион, је нова техника која се надограђује и проширује способност тренутних унапред обучених модела дифузије текста у слику дозвољавајући им да буду условљени улазима уземљења.

ГЛИГЕН: нови модел генерисања замрзнутог текста у слику са граничним оквиром

Да би задржали опсежно знање о концепту претходно обученог модела, програмери замрзавају све његове тежине и пумпају информације о уземљивању у свеже слојеве који се могу обучити путем контролисаног процеса. Са уносима услова за натписе и оквире за ограничавање, ГЛИГЕН модел генерише отворени свет заснован на тексту у слику, а способност уземљења се ефикасно генерализује на нове просторне конфигурације и концепте.

Одјављивање демо овде.

ГЛИГЕН се заснива на постојећим унапред обученим моделима дифузије, чије су оригиналне тежине замрзнуте да би се задржале огромне количине унапред обученог знања.
  • ГЛИГЕН се заснива на постојећим претходно обученим дифузиони модели, чије су оригиналне тежине замрзнуте да би се задржале огромне количине унапред обученог знања.
  • На сваком блоку трансформатора, креиран је нови слој Гатед Селф-Аттентион слој који може да апсорбује додатни улаз уземљења.
  • Сваки токен за уземљење има две врсте информација: семантичке информације о уземљеној ствари (кодирани текст или слика) и информације о просторној позицији (кодирани гранични оквир или кључне тачке).
Повезани чланак: ВТоонифи: АИ модел у реалном времену за генерисање уметничких портретних видео записа
Новододати модулисани слојеви се континуирано унапред обучавају на масивним подацима уземљења (имаге-тект-бок), што је исплативије од алтернативних метода коришћења унапред обученог модела дифузије, као што је фино подешавање пуног модела. Слично као код Лего-а, различити обучени слојеви се могу укључити и искључити како би се омогућиле различите нове могућности.
Новододати модулисани слојеви се континуирано унапред обучавају на масивним подацима уземљења (слика-текст-кутија). Ово је исплативије од алтернативних метода коришћења претходно обучених модел дифузије, као што је фино подешавање целог модела. Слично као код Лего-а, различити обучени слојеви се могу укључити и искључити како би се омогућиле различите нове могућности.
ГЛИГЕН подржава планирано узорковање у процесу дифузије ради закључивања, где модел може динамички да изабере да користи токене за уземљење (додавањем новог слоја) или оригинални модел дифузије са добрим претходним (избацивањем новог слоја), и на тај начин уравнотежи квалитет генерисања и способност уземљења.
ГЛИГЕН подржава планирано узорковање у процесу дифузије ради закључивања, где модел може динамички да изабере да користи токене за уземљење (додавањем новог слоја) или оригинални модел дифузије са добрим претходним (избацивањем новог слоја), и на тај начин уравнотежи квалитет генерисања и способност уземљења.
ГЛИГЕН може да генерише различите објекте на одређеним местима и стиловима користећи знање из унапред обученог тект2имг модела.
ГЛИГЕН може да генерише различите објекте на одређеним местима и стиловима користећи знање из унапред обученог тект2имг модела.
Повезани чланак: Мицрософт је објавио модел дифузије који може да направи 3Д аватар од једне фотографије особе
ГЛИГЕН се такође може обучити коришћењем референтних слика.
ГЛИГЕН се такође може обучити коришћењем референтних слика. Горњи ред сугерише да референтне фотографије, поред писаних описа, могу пружити детаљније карактеристике као што су стил и облик аутомобила. Други ред показује да се референтна слика може користити и као стилска слика, у ком случају откривамо да је довољно да је уземљите у угао или ивицу слике.
ГЛИГЕН, као и други модели дифузије, може да изврши уземљену слику, која може да генерише објекте који се блиско подударају са испорученим граничним оквирима.
ГЛИГЕН, као и други модели дифузије, може да изврши уземљену слику, која може да генерише објекте који се блиско подударају са испорученим граничним оквирима.
ГЛИГЕН такође може да уземљи људске кључне тачке док генерише текст у слике.
ГЛИГЕН такође може приземљити људске кључне тачке док генерисање текста у слике.

Прочитајте више о АИ:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Ињецтиве удружује снаге са АлтЛаиер-ом како би донео сигурност поновног уметања у инЕВМ
Posao Новински извештај технологија
Ињецтиве удружује снаге са АлтЛаиер-ом како би донео сигурност поновног уметања у инЕВМ
Може 3, 2024
Маса се удружује са Теллером како би увела МАСА фонд за зајмове, омогућавајући УСДЦ позајмљивање на бази
tržišta Новински извештај технологија
Маса се удружује са Теллером како би увела МАСА фонд за зајмове, омогућавајући УСДЦ позајмљивање на бази
Може 3, 2024
Велодроме лансира Суперцхаин Бета верзију у наредним недељама и проширује се преко ОП Стацк Лаиер 2 Блоцкцхаинс-а
tržišta Новински извештај технологија
Велодроме лансира Суперцхаин Бета верзију у наредним недељама и проширује се преко ОП Стацк Лаиер 2 Блоцкцхаинс-а
Може 3, 2024
ЦАРВ најављује партнерство са Аетхир-ом како би децентрализовао свој слој података и поделио награде
Posao Новински извештај технологија
ЦАРВ најављује партнерство са Аетхир-ом како би децентрализовао свој слој података и поделио награде
Може 3, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.