Nvidia je najavila eDiff-I: novi generativni AI za sintezu teksta i slika s trenutnim prijenosom stilova
Ukratko
Nvidia lansira eDiff-I kako bi pomogla tvrtkama u stvaranju visokokvalitetnih, privlačnih slika
Tehnika eDiff-I redovito proizvodi veću kvalitetu sinteze od DALL-E2 i Stable diffusion
eDiff-I novi je alat za stvaranje AI sadržaja koji osigurava neviđene mogućnosti sinteze teksta u sliku za trgovce i tvrtke, kao što je nedavno najavio Nvidia. Uz eDiff-I, tvrtke mogu brzo i jednostavno stvoriti visokokvalitetne, zanimljive vizualne sadržaje bez potrebe za skupom opremom ili stručnom pomoći. eDiff-I koristi obradu prirodnog jezika (NLP) za tumačenje korisničkog unosa i generiranje odgovarajućih slika. AI zatim analizira slike i odabire najprikladniju na temelju konteksta. Rezultat je visokokvalitetna slika profesionalnog izgleda koja se može koristiti u razne svrhe, kao što su marketinški materijali, objave na društvenim mrežama, kampanje putem e-pošte i drugo.
eDiff-I je a generativna umjetna inteligencija sljedeće generacije alat za stvaranje sadržaja koji pruža neviđeno tekst-u-sliku sinteza, brz prijenos stila i intuitivno slikanje riječima. Kao difuzijski model za stvaranje vizuala iz teksta, eDiff-I predlaže obuku ansambla stručnih mreža za uklanjanje šuma, od kojih je svaka specijalizirana za određeni interval šuma, kao odgovor na empirijski nalaz da ponašanje difuzijskih modela varira u različitim fazama uzorkovanja.
T5 tekstualni umetci, CLIP slikovni umetci i CLIP tekstualni umetci pružaju osnovu za eDiff-I koncept. Ova metodologija može proizvesti fotorealističnu grafiku kao odgovor na bilo koji tekstualni upit.
Predstavlja dvije dodatne mogućnosti uz sintezu teksta u sliku: (1) prijenos stila, koji nam omogućuje kontrolu stila generiranog uzorka pomoću slike referentnog stila, i (2) "Bojanje riječima", alat koji korisnicima omogućuje stvaranje slika slikanjem mapa segmentacije na platnu.
Cjevovod se sastoji od kaskade od tri modela difuzije: osnovnog modela koji može stvoriti uzorke s razlučivošću od 64×64 i dva skupa super-razlučivosti koji mogu postupno povećavati uzorkovanje slika do razlučivosti od 256×256 odnosno 1024×1024. Modeli izračunavaju T5 XXL i ugrađivanje teksta nakon što prime natpis kao ulaz. Ove umetnute slike mogu se koristiti kao vektor stila. Zatim ubacite ova ugrađivanja u naš kaskadni difuzijski modeli, koji postupno proizvode slike rezolucije 1024 x 1024.
Pristup eDiff-I dosljedno rezultira boljom kvalitetom sinteze u usporedbi s algoritmima otvorenog koda teksta u sliku (Stable diffusion) i (DALL-E2).
Kada se koriste ugradnje CLIP slike, pristup eDiff-I olakšava prijenos stila. eDiff-I prvo izdvaja CLIP umetanja slike iz slike referentnog stila, koja se može koristiti kao referentni vektor stila. Stilska referenca može se vidjeti na slici ispod lijeve ploče. Ishodi kada je uključeno uvjetovanje stila prikazani su na središnjoj ploči. Ishodi kada je uvjetovanje stila isključeno prikazani su na ploči s desne strane. Kada se primijeni uvjetovanje stila, model eDiff-I stvara izlaze koji također odgovaraju stilu ulaznog naslova. Kada je uvjetovanje stila isključeno, proizvode se fotografije prirodnog izgleda.
Odabirom fraza i njihovim škrabanjem po slici, korisnici metode eDiff-I mogu promijeniti položaj stvari koje su navedene u tekstualnom upitu. Nakon toga, model koristi upit i karte za stvaranje slika koji su kompatibilni i s natpisom i s kartom unosa.
Pročitajte povezane članke:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.