Novembris 24, 2022

Stability AI'S Stable Diffusion 2 Algoritms beidzot ir publisks: jauns deep2img modelis, īpaši augstas izšķirtspējas mērogošana, bez pieaugušajiem paredzēta satura

by Damirs Jalalovs

Publicēts: 24. gada 2022. novembrī plkst. 3:18 Atjaunināts: 21. gada 2024. martā, plkst. 11:41

by Viktors Dejs

Rediģēts un pārbaudīts ar faktiem: 24. gada 2022. novembrī, plkst. 3:18

Īsumā

Stable Diffusion 2.0 modelis ir ātrāks, atvērtā koda, mērogojams, izturīgāks nekā iepriekšējais

Stable Diffusion ir gatavs GPU ar jaunām funkcijām reāllaika renderēšanai

Dziļuma vadīts stable diffusion modelis – Attēls pret attēlu ar jaunām idejām radošām lietojumprogrammām

Stability AI ir atbrīvots jauns raksts savā emuārā par Stable Diffusion 2. Tajā, Stability AI ierosina jaunu algoritmu, kas ir efektīvāks un izturīgāks par iepriekšējo, vienlaikus salīdzinot to ar citām modernākajām metodēm.

Atveriet AI Stable Diffusion 2 Algoritms beidzot ir publisks: jauns deep2img modelis, īpaši augstas izšķirtspējas mērogošana, bez pieaugušajiem paredzēta satura

CompVis oriģināls Stable Diffusion V1 modelis radikāli atvērtā koda būtība AI modeļi un ražoja simtiem dažādu modeļu un sasniegumu visā pasaulē. Tas piedzīvoja vienu no ātrākajiem kāpumiem līdz 10,000 33,000 Github zvaigznēm, mazāk nekā divu mēnešu laikā sasniedzot XNUMX XNUMX — ātrāk nekā citas programmas Github.

Sākotnējais Stable Diffusion V1 izlaidumu vadīja Robina Rombaha dinamiskā komanda (Stability AI) un Patrick Esser (Runway ML) no CompVis grupas LMU Minhenē, ko vada prof. Dr. Björn Ommer. Viņi balstījās uz laboratorijas iepriekšējo darbu ar Latent Difūzijas modeļi un saņēma kritisku atbalstu no LAION un Eleuther AI.

Kas padara Stable Diffusion v1 atšķiras no Stable Diffusion v2?

Stable Diffusion 2.0, salīdzinot ar iepriekšējo versiju, ietver vairākus nozīmīgus uzlabojumus un līdzekļus, tāpēc apskatīsim tos.

Jūsu darbs IR Klientu apkalpošana Stable Diffusion 2.0 laidienā ir izturīgi teksta pārveides modeļi, kas apmācīti ar jaunu teksta kodētāju (OpenCLIP), ko izstrādājis LAION ar palīdzību no Stability AI, kas ievērojami uzlabo kvalitāti ģenerētie attēli salīdzinājumā ar iepriekšējiem V1 laidieniem. Šī laidiena modeļi teksta pārveidošanai attēlā var izvadīt attēlus ar noklusējuma izšķirtspēju 512 × 512 pikseļi un 768 × 768 pikseļi.

Šie modeļi tiek apmācīti, izmantojot LAION-5B datu kopas estētisku apakškopu, ko ģenerē Stability AIDeepFloyd komanda, kas pēc tam tiek filtrēta, lai izslēgtu pieaugušajiem paredzētu saturu, izmantojot LAION NSFW filtru.

Novērtējumi, izmantojot 50 DDIM parauga soļus, 50 vadošās skalas bez klasifikatoriem un 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 un 8.0, norāda uz relatīviem kontrolpunktu uzlabojumiem:

Kas padara Stable Diffusion v1 atšķiras no Stable Diffusion v2?

Stable Diffusion 2.0 tagad ietver Upscaler Diffusion modeli, kas palielina attēla izšķirtspēju četras reizes. Mūsu modeļa piemērs uzlabošana zemas kvalitātes ģenerēts attēls (128 × 128) augstākas izšķirtspējas attēlā ir parādīts zemāk (512 × 512). Stable Diffusion 2.0, apvienojumā ar mūsu teksta pārveides modeļiem, tagad var ģenerēt attēlus ar izšķirtspēju 2048 × 2048 vai augstāku.

Jaunā dziļuma vadīta stable diffusion modelis, deep2img, paplašina iepriekšējo V1 funkciju “attēls uz attēlu” ar pilnīgi jaunām radošām iespējām. Depth2img nosaka ievades attēla dziļumu (izmantojot esošu modeli) un pēc tam ģenerē jaunu attēlus pamatojoties gan uz tekstu, gan uz dziļuma informāciju. Depth-to-Image var nodrošināt virkni jaunu radošu lietojumprogrammu, piedāvājot izmaiņas, kas šķiet būtiski atšķirīgas no oriģināla, vienlaikus saglabājot attēla saskaņotību un dziļumu.

Kas jauns iekšā Stable Diffusion 2?

Jaunais stable diffusion modelis piedāvā 768 × 768 izšķirtspēju.
U-Net ir tāds pats parametru skaits kā versijai 1.5, taču tas ir apmācīts no nulles un kā teksta kodētājs izmanto OpenCLIP-ViT/H. Tā sauktais v-prognozes modelis ir SD 2.0-v.
Iepriekš minētais modelis tika pielāgots no SD 2.0 bāzes, kas arī ir pieejams un tika apmācīts kā tipisks trokšņu prognozēšanas modelis 512 × 512 attēliem.
Ir pievienots latentais teksta vadīts difūzijas modelis ar x4 mērogošanu.
Uzlabota SD 2.0 bāzes dziļuma vadība stable diffusion modelis. Modeli var izmantot struktūras saglabāšanai img2img un formas nosacītajai sintēzei, un tas ir atkarīgs no monokulārā dziļuma aplēsēm, ko secina MiDaS.
Uzlabots ar tekstu vadāms gleznošanas modelis, kas izveidots uz SD 2.0 pamata.

Izstrādātāji smagi strādāja, tāpat kā sākotnējā iterācija Stable Diffusion, lai optimizētu modeli tā, lai tas darbotos ar vienu GPU — viņi jau no paša sākuma vēlējās padarīt to pieejamu pēc iespējas lielākam cilvēku skaitam. Viņi jau ir redzējuši, kas notiek, kad miljoniem cilvēku pieķeras pie šiem modeļiem un sadarbojas, lai izveidotu absolūti ievērojamas lietas. Tas ir atvērtā koda spēks: miljoniem talantīgu cilvēku plašā potenciāla izmantošana, kuriem, iespējams, nav resursu, lai apmācītu visprogresīvāko modeli, bet kuriem ir iespēja ar to paveikt neticamas lietas.

Šis jaunais atjauninājums apvienojumā ar jaudīgām jaunām funkcijām, piemēram, deep2img un labākām izšķirtspējas palielināšanas iespējām, kalpos par pamatu daudzām jaunām lietojumprogrammām un ļaus izvērst jaunu radošo potenciālu.

Lasiet vairāk par Stable Diffusion:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs