„Nvidia“ paskelbė „eDiff-I“: naują generatyvų AI, skirtą teksto ir vaizdo sintezei su momentiniu stilių perkėlimu
Trumpai
„Nvidia“ pristato „eDiff-I“, kad padėtų įmonėms kurti aukštos kokybės, patrauklius vaizdus
eDiff-I technika reguliariai sukuria geresnę sintezės kokybę nei DALL-E2 ir Stable diffusion
eDiff-I yra naujas AI turinio kūrimo įrankis, kuris suteikia precedento neturinčios teksto į vaizdą sintezės galimybės rinkodaros specialistams ir įmonėms, kaip neseniai paskelbė nvidia. Naudodamos „eDiff-I“, įmonės gali greitai ir lengvai sukurti aukštos kokybės, patrauklų vaizdą, nereikalaujant brangios įrangos ar profesionalios pagalbos. „eDiff-I“ naudoja natūralios kalbos apdorojimą (NLP), kad interpretuotų vartotojo įvestį ir generuotų atitinkamus vaizdus. Tada AI analizuoja vaizdus ir pagal kontekstą pasirenka tinkamiausią. Rezultatas – aukštos kokybės, profesionaliai atrodantis vaizdas, kurį galima naudoti įvairiems tikslams, pavyzdžiui, rinkodaros medžiagai, socialinių tinklų įrašams, el. pašto kampanijoms ir kt.
eDiff-I yra a naujos kartos generatyvinis AI turinio kūrimo įrankis, suteikiantis precedento neturintį tekstas į vaizdą sintezė, greitas stiliaus perkėlimas ir intuityvus tapymas žodžiais. Kaip difuzijos modelį kuriant vaizdinius iš teksto, „eDiff-I“ siūlo parengti ekspertų triukšmo slopinimo tinklų ansamblį, kurių kiekvienas specializuojasi tam tikram triukšmo intervalui, reaguodamas į empirinę išvadą, kad difuzijos modelių elgsena skiriasi skirtingose atrankos fazėse.
T5 teksto įterpimai, CLIP vaizdo įterpimai ir CLIP teksto įterpimai sudaro eDiff-I koncepcijos pagrindą. Ši metodika gali sukurti fotorealistišką grafiką atsakant į bet kurią tekstinę užklausą.
Be teksto į vaizdą sintezės, jame yra dvi papildomos galimybės: (1) stiliaus perkėlimas, leidžiantis valdyti sugeneruoto pavyzdžio stilių naudojant nuorodos stiliaus vaizdą, ir (2) įrankis „Paint with Words“. leidžia vartotojams kurti vaizdus piešant segmentavimo žemėlapius ant drobės.
Dujotiekį sudaro trijų difuzijos modelių kaskados: bazinis modelis, galintis sukurti 64 × 64 raiškos pavyzdžius ir du itin didelės skiriamosios gebos rinkiniai, kurie gali palaipsniui padidinti paveikslėlių mėginius iki atitinkamai 256 × 256 ir 1024 × 1024 raiškos. Modeliai apskaičiuoja T5 XXL ir teksto įterpimą gavę antraštę kaip įvestį. Šie paveikslėlių įterpimai gali būti naudojami kaip stiliaus vektorius. Tada įdėkite šiuos įterpimus į mūsų kaskadą difuzijos modeliai, kurios palaipsniui sukuria 1024 x 1024 raiškos vaizdus.
eDiff-I metodas nuosekliai užtikrina geresnę sintezės kokybę, palyginti su atvirojo kodo teksto į vaizdą algoritmais (Stable diffusion) ir (DALL-E2).
Kai naudojami CLIP vaizdo įterpimai, eDiff-I metodas palengvina stiliaus perkėlimą. „eDiff-I“ pirmiausia ištraukia CLIP vaizdo įterpimas iš nuorodos stiliaus vaizdo, kuris gali būti naudojamas kaip stiliaus nuorodos vektorius. Stilistinę nuorodą galima pamatyti paveikslėlyje, esančiame kairiajame skydelyje. Rezultatai, kai įjungtas stiliaus kondicionavimas, rodomi centriniame skydelyje. Rezultatai, kai stiliaus kondicionavimas išjungtas, rodomi skydelyje dešinėje. Kai taikomas stiliaus kondicionavimas, eDiff-I modelis sukuria išvestis, kurios taip pat atitinka įvesties antraštės stilių. Kai stiliaus kondicionavimas išjungtas, sukuriamos natūraliai atrodančios nuotraukos.
Pasirinkę frazes ir užrašydami jas paveikslėlyje, eDiff-I metodo naudotojai gali pakeisti teksto raginimo sąraše nurodytų dalykų vietą. Po to modelis naudoja raginimą ir žemėlapius, kad sukurtumėte vaizdus kurie yra suderinami su antrašte ir įvesties žemėlapiu.
Skaityti susijusius straipsnius:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.