Stability AI'S Stable Diffusion 2 Algoritmus je konečne verejný: nový model depth2img, vylepšenie rozlíšenia v super rozlíšení, žiadny obsah pre dospelých
Stručne
Stable Diffusion Model 2.0 je rýchlejší, open source, škálovateľný, robustnejší ako predchádzajúci
Stable Diffusion je pripravený na GPU s novými funkciami na vykresľovanie v reálnom čase
Hĺbkovo vedené stable diffusion model – Obrázok k obrázku s novými nápadmi na kreatívne aplikácie
Stability AI má uvoľnený nový článok na svojom blogu o Stable Diffusion 2. V ňom Stability AI navrhuje nový algoritmus, ktorý je efektívnejší a robustnejší ako predchádzajúci, pričom ho porovnáva s inými najmodernejšími metódami.
Originál CompVis Stable Diffusion Model V1 revolučne povaha open-source AI modely a vyrobili stovky rôznych modelov a pokrokov po celom svete. Bol zaznamenaný jeden z najrýchlejších nárastov na 10,000 33,000 hviezd Github, pričom za menej ako dva mesiace sa ich nazbieralo XNUMX XNUMX, rýchlejšie ako viac programov na Github.
Pôvodná Stable Diffusion Vydanie V1 viedol dynamický tím Robina Rombacha (Stability AI) a Patrick Esser (Runway ML) zo skupiny CompVis na LMU Mníchov, ktorú vedie Prof. Dr. Björn Ommer. Nadviazali na predchádzajúcu prácu laboratória s Latentom Difúzne modely a získala kritickú podporu od LAION a Eleuther AI.
čo robí Stable Diffusion v1 odlišná od Stable Diffusion v2?
Stable Diffusion 2.0 obsahuje oproti predchádzajúcej verzii množstvo významných vylepšení a funkcií, poďme sa teda na ne pozrieť.
Stable Diffusion Vydanie 2.0 obsahuje robustné modely prevodu textu na obrázok vyškolené pomocou nového nového kódovača textu (OpenCLIP) vyvinutého spoločnosťou LAION s pomocou Stability AI, čo výrazne zvyšuje kvalitu generované obrázky oproti predchádzajúcim vydaniam V1. Modely prevodu textu na obrázok v tomto vydaní môžu vydávať obrázky s predvoleným rozlíšením 512 × 512 pixelov a 768 × 768 pixelov.
Tieto modely sú trénované pomocou estetickej podmnožiny súboru údajov LAION-5B vygenerovaného pomocou Stability AItím DeepFloyd, ktorý je potom filtrovaný, aby sa vylúčil obsah pre dospelých pomocou filtra LAION NSFW.
Hodnotenia pomocou 50 vzorových krokov DDIM, 50 vodiacich stupníc bez klasifikátora a 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 a 8.0 naznačujú relatívne zlepšenia kontrolných bodov:
Stable Diffusion 2.0 teraz obsahuje model Upscaler Diffusion, ktorý zvyšuje rozlíšenie obrazu štvornásobne. Príklad nášho modelu upscaling nekvalitný vygenerovaný obrázok (128×128) na obrázok s vyšším rozlíšením je zobrazený nižšie (512×512). Stable Diffusion 2.0 v kombinácii s našimi modelmi prevodu textu na obrázok teraz dokáže generovať obrázky s rozlíšením 2048 × 2048 alebo vyšším.
Nové hĺbkové vedenie stable diffusion model, depth2img, rozširuje predchádzajúcu funkciu obrazu na obrázok z V1 o úplne nové kreatívne možnosti. Depth2img určuje hĺbku vstupného obrázka (pomocou existujúceho modelu) a potom vygeneruje nový obrazy na základe textu aj informácií o hĺbke. Depth-to-Image môže poskytnúť množstvo nových kreatívnych aplikácií, ktoré ponúkajú zmeny, ktoré sa zdajú byť výrazne odlišné od originálu, pričom si zachovávajú koherenciu a hĺbku obrazu.
Čo je nové v Stable Diffusion 2?
- Nový stable diffusion model ponúka rozlíšenie 768 × 768.
- U-Net má rovnaké množstvo parametrov ako verzia 1.5, ale je trénovaný od začiatku a ako textový kódovač používa OpenCLIP-ViT/H. Takzvaný v-predikčný model je SD 2.0-v.
- Vyššie uvedený model bol upravený zo základne SD 2.0, ktorá je tiež k dispozícii a bola trénovaná ako typický model predikcie šumu na obrázkoch 512 × 512.
- Bol pridaný model latentnej textom riadenej difúzie s x4 mierkou.
- Rafinované hĺbkové vedenie so základňou SD 2.0 stable diffusion model. Model sa môže použiť na img2img zachovávajúci štruktúru a tvarovo podmienenú syntézu a je podmienený odhadmi monokulárnej hĺbky odvodenými pomocou MiDaS.
- Vylepšený textom riadený model maľovania postavený na základoch SD 2.0.
Vývojári tvrdo pracovali, rovnako ako pri počiatočnej iterácii Stable Diffusion, aby optimalizovali model tak, aby bežal na jedinom GPU – od začiatku ho chceli sprístupniť čo najväčšiemu počtu ľudí. Už videli, čo sa stane, keď milióny jednotlivcov dostanú do rúk tieto modely a spolupracujú na stavbe absolútne pozoruhodných vecí. Toto je sila open source: využitie obrovského potenciálu miliónov talentovaných ľudí, ktorí možno nemajú prostriedky na vycvičenie špičkového modelu, ale majú schopnosť s ním robiť neuveriteľné veci.
Táto nová aktualizácia v kombinácii s výkonnými novými funkciami, ako je depth2img a lepšie možnosti zvýšenia rozlíšenia, poslúži ako základ pre množstvo nových aplikácií a umožní explóziu nového kreatívneho potenciálu.
Prečítajte si viac o Stable Diffusion:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.