Нвидиа је најавила еДифф-И: нови генеративни АИ за синтезу текста и слика са тренутним преносом стилова
Укратко
Нвидиа лансира еДифф-И да помогне предузећима да креирају висококвалитетне, привлачне слике
Техника еДифф-И редовно производи већи квалитет синтезе од ДАЛЛ-Е2 и Stable diffusion
еДифф-И је нови алат за креирање АИ садржаја који обезбеђује невиђене могућности синтезе текста у слику за трговце и предузећа, као што је недавно најавио Нвидиа. Са еДифф-И, предузећа могу брзо и лако да креирају висококвалитетне, занимљиве визуелне приказе без потребе за скупом опремом или стручном помоћи. еДифф-И користи обраду природног језика (НЛП) за тумачење уноса корисника и генерисање одговарајућих слика. АИ затим анализира слике и бира најприкладнију на основу контекста. Резултат је слика високог квалитета, професионалног изгледа која се може користити у различите сврхе, као што су маркетиншки материјали, објаве на друштвеним мрежама, кампање путем е-поште и још много тога.
еДифф-И је а генеративна вештачка интелигенција следеће генерације алат за креирање садржаја који пружа без преседана текст у слику синтеза, брз пренос стила и интуитивно сликање речима. Као модел дифузије за креирање визуелних приказа од текста, еДифф-И предлаже обуку ансамбла стручних мрежа за уклањање шума, од којих је свака специјализована за одређени интервал буке, као одговор на емпиријски налаз да понашање дифузионих модела варира у различитим фазама узорковања.
Т5 уграђивање текста, ЦЛИП уграђивање слике и ЦЛИП уграђивање текста дају основу за концепт еДифф-И. Ова методологија може произвести фотореалистичну графику као одговор на било који текстуални упит.
Он представља две додатне могућности поред синтезе текста у слику: (1) пренос стила, који нам омогућава да контролишемо стил генерисаног узорка помоћу слике референтног стила, и (2) „Бојај речима“, алатку који омогућава корисницима да креирају слике сликањем мапа сегментације на платну.
Цевовод се састоји од каскаде од три дифузиона модела: основног модела који може да креира узорке са резолуцијом од 64×64 и два стека супер-резолуције који могу постепено да повећавају узорковање слика до резолуције од 256×256 и 1024×1024, респективно. Модели израчунавају Т5 КСКСЛ и уграђивање текста након што добију натпис као улаз. Ове слике могу се користити као вектор стила. Затим убаците ове уградње у наш каскадни дифузиони модели, који постепено производе слике резолуције 1024 к 1024.
еДифф-И приступ доследно доводи до бољег квалитета синтезе у поређењу са алгоритмима текста у слику отвореног кода (Stable diffusion) и (ДАЛЛ-Е2).
Када се користе ЦЛИП уградње слике, еДифф-И приступ олакшава пренос стила. еДифф-И прво издваја ЦЛИП уграђивање слике из слике референтног стила, која се може користити као референтни вектор стила. Стилска референца се може видети на слици испод левог панела. Исходи када је условљавање стила укључено су приказани на централном панелу. Исходи када је условљавање стила искључено су приказани на табли са десне стране. Када се примени условљавање стила, еДифф-И модел креира излазе који су такође верни стилу улазног наслова. Када се угађање стила искључи, праве се фотографије природног изгледа.
Одабиром фраза и њиховим шкрабањем на слици, корисници еДифф-И методе могу да промене положај ствари које су наведене у текстуалном одзивнику. Након тога, модел користи упит и мапе за креирање слика који су компатибилни и са натписом и са улазном мапом.
Прочитајте повезане чланке:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.