Stability AIJe Stable Diffusion 2 Algoritem je končno javen: nov model deep2img, povečava super ločljivosti, brez vsebine za odrasle
Na kratko
Stable Diffusion Model 2.0 je hitrejši, odprtokoden, razširljiv in robustnejši od prejšnjega
Stable Diffusion je pripravljen za GPU z novimi funkcijami za upodabljanje v realnem času
Globinsko voden stable diffusion Model – Slika v sliko z novimi idejami za ustvarjalne aplikacije
Stability AI je sprosti nov članek na svojem blogu o Stable Diffusion 2. V njej, Stability AI predlaga nov algoritem, ki je učinkovitejši in robustnejši od prejšnjega, hkrati pa ga primerja z drugimi najsodobnejšimi metodami.
Original CompVis Stable Diffusion Model V1 revolucionirala narava odprtokodnosti AI modeli in izdelal na stotine različnih modelov in napredkov po vsem svetu. Bil je eden najhitrejših vzponov na 10,000 Githubovih zvezdic, saj je v manj kot dveh mesecih zbral 33,000, hitreje kot več programov na Githubu.
Izvirnik Stable Diffusion Izdajo V1 je vodila dinamična ekipa Robina Rombacha (Stability AI) in Patrick Esser (Runway ML) iz skupine CompVis na LMU München, ki jo vodi prof. dr. Björn Ommer. Gradili so na prejšnjem delu laboratorija z Latentom Difuzijski modeli in prejel kritično podporo LAION in Eleuther AI.
Kar naredi Stable Diffusion v1 drugačen od Stable Diffusion v2?
Stable Diffusion 2.0 vključuje številne pomembne izboljšave in funkcije v primerjavi s prejšnjo različico, zato si jih oglejmo.
O Stable Diffusion Izdaja 2.0 vsebuje robustne modele besedila v sliko, usposobljene s svežim novim kodirnikom besedila (OpenCLIP), ki ga je razvil LAION s pomočjo Stability AI, kar bistveno izboljša kakovost ustvarjene slike nad prejšnjimi izdajami V1. Modeli besedila v sliko te izdaje lahko oddajajo slike s privzeto ločljivostjo 512 × 512 slikovnih pik in 768 × 768 slikovnih pik.
Ti modeli so usposobljeni z uporabo estetske podmnožice nabora podatkov LAION-5B, ki ga je ustvaril Stability AIekipa DeepFloyd, ki se nato filtrira, da izključi vsebino za odrasle z uporabo filtra NSFW podjetja LAION.
Ocene z uporabo 50 vzorčnih korakov DDIM, 50 vodilnih lestvic brez klasifikatorjev in 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 in 8.0 kažejo na relativne izboljšave kontrolnih točk:
Stable Diffusion 2.0 zdaj vključuje model Upscaler Diffusion, ki poveča ločljivost slike za faktor štiri. Primer našega modela Višanje nizko kakovostno ustvarjeno sliko (128 × 128) v sliko višje ločljivosti je prikazano spodaj (512 × 512). Stable Diffusion 2.0 lahko v kombinaciji z našimi modeli besedila v sliko zdaj ustvari slike z ločljivostjo 2048 × 2048 ali več.
Nova globinsko vodena stable diffusion Model, deep2img, razširja prejšnjo funkcijo slike na sliko iz V1 s popolnoma novimi ustvarjalnimi možnostmi. Depth2img določi globino vhodne slike (z uporabo obstoječega modela) in nato ustvari novo slike na podlagi besedila in informacij o globini. Depth-to-Image lahko zagotovi množico novih kreativnih aplikacij, ki ponujajo spremembe, ki se zdijo bistveno drugačne od izvirnika, hkrati pa ohranjajo skladnost in globino slike.
Kaj je novega v Stable Diffusion 2?
- Novi stable diffusion Model ponuja ločljivost 768×768.
- U-Net ima enako število parametrov kot različica 1.5, vendar je učen od začetka in uporablja OpenCLIP-ViT/H kot kodirnik besedila. Tako imenovani model v-predikcije je SD 2.0-v.
- Zgoraj omenjeni model je bil prilagojen iz SD 2.0-baze, ki je prav tako na voljo, in je bil usposobljen kot tipičen model za napovedovanje šuma na slikah 512×512.
- Dodan je bil model latentne besedilno vodene difuzije s skaliranjem x4.
- Izboljšano vodenje po globini na osnovi SD 2.0 stable diffusion Model. Model je mogoče uporabiti za img2img, ki ohranja strukturo, in sintezo pogojne oblike ter je pogojen z ocenami monokularne globine, ki jih izpelje MiDaS.
- Izboljšan model slikanja z vodenim besedilom, zgrajen na podlagi SD 2.0.
Razvijalci so trdo delali, tako kot pri začetni ponovitvi Stable Diffusion, da bi optimizirali model za delovanje na enem samem GPU-ju so želeli omogočiti dostop čim več ljudem že od samega začetka. Videli so že, kaj se zgodi, ko milijoni posameznikov dobijo v roke te modele in sodelujejo pri izdelavi popolnoma izjemnih stvari. To je moč odprte kode: izkoriščanje ogromnega potenciala milijonov nadarjenih ljudi, ki morda nimajo sredstev za usposabljanje vrhunskega modela, vendar imajo zmožnost narediti neverjetne stvari z njim.
Ta nova posodobitev bo v kombinaciji z zmogljivimi novimi funkcijami, kot je depth2img in boljšimi zmožnostmi povečanja ločljivosti, služila kot temelj za množico novih aplikacij in omogočila eksplozijo novega ustvarjalnega potenciala.
Preberite več Stable Diffusion:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.