Nvidia oznámila eDiff-I: novú generatívnu AI pre syntézu textu a obrázkov s okamžitým prenosom štýlov
Stručne
Nvidia spúšťa eDiff-I, aby pomohla firmám vytvárať vysokokvalitné a pútavé obrázky
Technika eDiff-I pravidelne produkuje vyššiu kvalitu syntézy ako DALL-E2 a Stable diffusion
eDiff-I je nový nástroj na vytváranie obsahu AI, ktorý poskytuje bezprecedentné možnosti syntézy textu na obrázok pre obchodníkov a podniky, ako nedávno oznámil Nvidia. S eDiff-I môžu podniky rýchlo a jednoducho vytvárať vysokokvalitné, pútavé vizuály bez potreby drahého vybavenia alebo odbornej pomoci. eDiff-I používa spracovanie prirodzeného jazyka (NLP) na interpretáciu vstupu používateľa a generovanie zodpovedajúcich obrázkov. AI potom analyzuje obrázky a na základe kontextu vyberie ten najvhodnejší. Výsledkom je vysokokvalitný, profesionálne vyzerajúci obrázok, ktorý možno použiť na rôzne účely, ako sú marketingové materiály, príspevky na sociálnych sieťach, e-mailové kampane a ďalšie.
eDiff-I je a generatívna AI novej generácie nástroj na tvorbu obsahu, ktorý poskytuje bezprecedentné prevod textu na obrázok syntéza, rýchly prenos štýlu a intuitívne maľovanie so slovami. Ako difúzny model na vytváranie vizuálov z textu eDiff-I navrhuje trénovať súbor expertných odšumovacích sietí, z ktorých každá sa špecializuje na konkrétny interval šumu, v reakcii na empirické zistenie, že správanie sa difúznych modelov sa mení v rôznych fázach vzorkovania.
Vloženie textu T5, vloženie obrázkov CLIP a vloženie textu CLIP poskytujú základ pre koncept eDiff-I. Táto metodika môže produkovať fotorealistickú grafiku ako odpoveď na akýkoľvek textový dopyt.
Okrem syntézy textu na obrázok predstavuje dve ďalšie funkcie: (1) prenos štýlu, ktorý nám umožňuje ovládať štýl vygenerovanej vzorky pomocou obrázka referenčného štýlu, a (2) nástroj „Maľovanie slovami“. ktorý umožňuje používateľom vytvárať obrázky maľovaním máp segmentácie na plátno.
Potrubie pozostáva z kaskády troch difúznych modelov: základného modelu, ktorý dokáže vytvárať vzorky s rozlíšením 64×64 a dvoch zásobníkov s vysokým rozlíšením, ktoré môžu postupne prevzorkovať obrázky na rozlíšenie 256×256 a 1024×1024. Modely vypočítajú T5 XXL a vkladanie textu po prijatí titulku ako vstupu. Tieto vložené obrázky možno použiť ako vektor štýlu. Potom vložte tieto vložky do našej kaskády difúzne modely, ktoré postupne produkujú obrázky s rozlíšením 1024 x 1024.
Prístup eDiff-I konzistentne vedie k lepšej kvalite syntézy v porovnaní s open source algoritmami prevodu textu na obrázok (Stable diffusion) a (DALL-E2).
Keď sa použije vkladanie obrázkov CLIP, prístup eDiff-I uľahčuje prenos štýlu. eDiff-I najprv extrahuje súbor CLIP vloženie obrázkov z obrázka referenčného štýlu, ktoré možno použiť ako referenčný vektor štýlu. Štylistický odkaz je možné vidieť na obrázku nižšie v ľavom paneli. Výsledky po zapnutí úpravy štýlu sa zobrazia na stredovom paneli. Výsledky, keď je úprava štýlu vypnutá, sa zobrazia na paneli vpravo. Keď sa použije úprava štýlu, model eDiff-I vytvorí výstupy, ktoré zodpovedajú aj štýlu vstupného titulku. Keď je úprava štýlu vypnutá, vytvárajú sa prirodzene vyzerajúce fotografie.
Používatelia metódy eDiff-I môžu výberom fráz a ich čmáraním na obrázok zmeniť umiestnenie vecí, ktoré sú uvedené v textovej výzve. Potom model používa a mapy na vytváranie obrázkov ktoré sú kompatibilné s popisom aj so vstupnou mapou.
Prečítajte si súvisiace články:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.