Stability AI'S Stable Diffusion 2 Algoritam je konačno javan: novi deep2img model, super rezolucija upscaler, bez sadržaja za odrasle
Ukratko
Stable Diffusion 2.0 model je brži, otvorenog koda, skalabilan, robusniji od prethodnog
Stable Diffusion postaje spreman za GPU s novim značajkama za renderiranje u stvarnom vremenu
Navođen po dubini stable diffusion model – Slika u sliku s novim idejama za kreativne primjene
Stability AI ima otpušten novi rad na svom blogu o Stable Diffusion 2. U njemu, Stability AI predlaže novi algoritam koji je učinkovitiji i robusniji od prethodnog, uspoređujući ga s drugim najsuvremenijim metodama.
CompVisov original Stable Diffusion V1 model revoluciju prirodu otvorenog koda AI modeli i proizveo stotine različitih modela i poboljšanja diljem svijeta. Doživio je jedan od najbržih uspona do 10,000 Github zvijezda, skupivši 33,000 u manje od dva mjeseca, brže od više programa na Githubu.
Izvorni Stable Diffusion Izdanje V1 predvodio je dinamični tim Robina Rombacha (Stability AI) i Patrick Esser (Runway ML) iz CompVis grupe na LMU München, koju vodi prof. dr. Björn Ommer. Nadogradili su prethodni rad laboratorija s Latentom Difuzijski modeli i dobio kritičnu podršku od LAION-a i Eleuther AI.
Što čini Stable Diffusion v1 različito od Stable Diffusion v2?
Stable Diffusion 2.0 uključuje niz značajnih poboljšanja i značajki u odnosu na prethodnu verziju, pa ih pogledajmo.
Korištenje električnih romobila ističe Stable Diffusion Izdanje 2.0 sadrži robusne modele pretvaranja teksta u sliku obučene sa svježim novim koderom teksta (OpenCLIP) koji je razvio LAION uz pomoć Stability AI, što značajno poboljšava kvalitetu generirane slike u odnosu na prethodna izdanja V1. Modeli teksta u sliku ovog izdanja mogu emitirati slike sa zadanom rezolucijom od 512×512 piksela i 768×768 piksela.
Ovi modeli su uvježbani korištenjem estetskog podskupa skupa podataka LAION-5B koji je generirao Stability AIDeepFloyd tima, koji se zatim filtrira kako bi se isključio sadržaj za odrasle pomoću LAION-ovog NSFW filtera.
Evaluacije koje koriste 50 koraka uzorka DDIM-a, 50 vodećih ljestvica bez klasifikatora i 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 i 8.0 pokazuju relativna poboljšanja kontrolnih točaka:
Stable Diffusion 2.0 sada uključuje model Upscaler Diffusion, koji povećava rezoluciju slike za faktor četiri. Primjer našeg modela upscaling ispod je prikazana generirana slika niske kvalitete (128×128) u sliku više rezolucije (512×512). Stable Diffusion 2.0, u kombinaciji s našim modelima pretvaranja teksta u sliku, sada može generirati slike razlučivosti 2048×2048 ili više.
Novi dubinski vođeni stable diffusion model, depth2img, proširuje prethodnu značajku slika-na-sliku iz V1 s potpuno novim kreativnim mogućnostima. Depth2img određuje dubinu ulazne slike (koristeći postojeći model), a zatim generira novu slika na temelju teksta i dubinskih informacija. Depth-to-Image može pružiti mnoštvo novih kreativnih aplikacija, nudeći promjene koje se čine znatno drugačijima od originala, a istovremeno zadržavaju koherentnost i dubinu slike.
Što je novo u Stable Diffusion 2?
- Novo stable diffusion model nudi rezoluciju 768×768.
- U-Net ima istu količinu parametara kao verzija 1.5, ali je obučen od nule i koristi OpenCLIP-ViT/H kao koder teksta. Takozvani model v-predviđanja je SD 2.0-v.
- Gore spomenuti model prilagođen je iz SD 2.0-baze, koja je također dostupna i obučen je kao tipičan model predviđanja šuma na slikama 512×512.
- Dodan je latentni tekstualno vođeni model difuzije s x4 skaliranjem.
- Profinjeni SD 2.0-bazni vođen po dubini stable diffusion model. Model se može koristiti za img2img koji čuva strukturu i sintezu uvjetovanu oblikom i uvjetovan je procjenama monokularne dubine koje izvodi MiDaS.
- Poboljšani model inpaintinga vođen tekstom izgrađen na temelju SD 2.0.
Programeri su naporno radili, baš kao i početna iteracija Stable Diffusion, kako bi optimizirali model za rad na jednom GPU-u — željeli su ga učiniti dostupnim što većem broju ljudi od samog početka. Već su vidjeli što se događa kada se milijuni pojedinaca dočepaju ovih modela i surađuju na izradi apsolutno nevjerojatnih stvari. Ovo je moć otvorenog izvornog koda: iskorištavanje golemog potencijala milijuna talentiranih ljudi koji možda nemaju resurse za obuku vrhunskog modela, ali imaju sposobnost učiniti nevjerojatne stvari s njim.
Ovo novo ažuriranje, u kombinaciji s moćnim novim značajkama kao što je depth2img i boljim mogućnostima povećanja razlučivosti, poslužit će kao temelj za mnoštvo novih aplikacija i omogućiti eksploziju novog kreativnog potencijala.
Pročitajte više o tome Stable Diffusion:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.