ГЛИГЕН: нови модел генерисања замрзнутог текста у слику са граничним оквиром
Укратко
ГЛИГЕН, или Гроундед-Лангуаге-то-Имаге Генератион, је нова техника која се надограђује и проширује способност тренутних унапред обучених модела дифузије.
Са уносима услова за натписе и оквире, ГЛИГЕН модел генерише текст2имг заснован на отвореном свету.
ГЛИГЕН може да генерише различите објекте на одређеним местима и стиловима користећи знање из унапред обученог тект2имг модела.
ГЛИГЕН такође може да уземљи људске кључне тачке док генерише текст у слике.
Модели дифузије текста у слику великих размера су прешли дуг пут. Међутим, тренутна пракса је ослањање искључиво на унос текста, што може ограничити могућност контроле. ГЛИГЕН, или Гроундед-Лангуаге-то-Имаге Генератион, је нова техника која се надограђује и проширује способност тренутних унапред обучених модела дифузије текста у слику дозвољавајући им да буду условљени улазима уземљења.
Да би задржали опсежно знање о концепту претходно обученог модела, програмери замрзавају све његове тежине и пумпају информације о уземљивању у свеже слојеве који се могу обучити путем контролисаног процеса. Са уносима услова за натписе и оквире за ограничавање, ГЛИГЕН модел генерише отворени свет заснован на тексту у слику, а способност уземљења се ефикасно генерализује на нове просторне конфигурације и концепте.
Одјављивање демо овде.
- ГЛИГЕН се заснива на постојећим претходно обученим дифузиони модели, чије су оригиналне тежине замрзнуте да би се задржале огромне количине унапред обученог знања.
- На сваком блоку трансформатора, креиран је нови слој Гатед Селф-Аттентион слој који може да апсорбује додатни улаз уземљења.
- Сваки токен за уземљење има две врсте информација: семантичке информације о уземљеној ствари (кодирани текст или слика) и информације о просторној позицији (кодирани гранични оквир или кључне тачке).
Повезани чланак: ВТоонифи: АИ модел у реалном времену за генерисање уметничких портретних видео записа |
Повезани чланак: Мицрософт је објавио модел дифузије који може да направи 3Д аватар од једне фотографије особе |
Прочитајте више о АИ:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.