Novinová správa Technológia
Novembra 24, 2022

Stability AI'S Stable Diffusion 2 Algoritmus je konečne verejný: nový model depth2img, vylepšenie rozlíšenia v super rozlíšení, žiadny obsah pre dospelých

Stručne

Stable Diffusion Model 2.0 je rýchlejší, open source, škálovateľný, robustnejší ako predchádzajúci

Stable Diffusion je pripravený na GPU s novými funkciami na vykresľovanie v reálnom čase

Hĺbkovo vedené stable diffusion model – Obrázok k obrázku s novými nápadmi na kreatívne aplikácie

Stability AI má uvoľnený nový článok na svojom blogu o Stable Diffusion 2. V ňom Stability AI navrhuje nový algoritmus, ktorý je efektívnejší a robustnejší ako predchádzajúci, pričom ho porovnáva s inými najmodernejšími metódami.

Otvorte AI Stable Diffusion 2 Algoritmus je konečne verejný: nový model depth2img, vylepšenie rozlíšenia v super rozlíšení, žiadny obsah pre dospelých

Originál CompVis Stable Diffusion Model V1 revolučne povaha open-source AI modely a vyrobili stovky rôznych modelov a pokrokov po celom svete. Bol zaznamenaný jeden z najrýchlejších nárastov na 10,000 33,000 hviezd Github, pričom za menej ako dva mesiace sa ich nazbieralo XNUMX XNUMX, rýchlejšie ako viac programov na Github.

Pôvodná Stable Diffusion Vydanie V1 viedol dynamický tím Robina Rombacha (Stability AI) a Patrick Esser (Runway ML) zo skupiny CompVis na LMU Mníchov, ktorú vedie Prof. Dr. Björn Ommer. Nadviazali na predchádzajúcu prácu laboratória s Latentom Difúzne modely a získala kritickú podporu od LAION a Eleuther AI.

Otvorte AI Stable Diffusion 2 Algoritmus je konečne verejný: nový model depth2img, vylepšenie rozlíšenia v super rozlíšení, žiadny obsah pre dospelých
Otvorte AI Stable Diffusion 2 Algoritmus je konečne verejný: nový model depth2img, vylepšenie rozlíšenia v super rozlíšení, žiadny obsah pre dospelých

čo robí Stable Diffusion v1 odlišná od Stable Diffusion v2? 

Stable Diffusion 2.0 obsahuje oproti predchádzajúcej verzii množstvo významných vylepšení a funkcií, poďme sa teda na ne pozrieť.

Stable Diffusion Vydanie 2.0 obsahuje robustné modely prevodu textu na obrázok vyškolené pomocou nového nového kódovača textu (OpenCLIP) vyvinutého spoločnosťou LAION s pomocou Stability AI, čo výrazne zvyšuje kvalitu generované obrázky oproti predchádzajúcim vydaniam V1. Modely prevodu textu na obrázok v tomto vydaní môžu vydávať obrázky s predvoleným rozlíšením 512 × 512 pixelov a 768 × 768 pixelov.

Tieto modely sú trénované pomocou estetickej podmnožiny súboru údajov LAION-5B vygenerovaného pomocou Stability AItím DeepFloyd, ktorý je potom filtrovaný, aby sa vylúčil obsah pre dospelých pomocou filtra LAION NSFW.

Hodnotenia pomocou 50 vzorových krokov DDIM, 50 vodiacich stupníc bez klasifikátora a 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 a 8.0 naznačujú relatívne zlepšenia kontrolných bodov:

čo robí Stable Diffusion v1 odlišná od Stable Diffusion v2?

Stable Diffusion 2.0 teraz obsahuje model Upscaler Diffusion, ktorý zvyšuje rozlíšenie obrazu štvornásobne. Príklad nášho modelu upscaling nekvalitný vygenerovaný obrázok (128×128) na obrázok s vyšším rozlíšením je zobrazený nižšie (512×512). Stable Diffusion 2.0 v kombinácii s našimi modelmi prevodu textu na obrázok teraz dokáže generovať obrázky s rozlíšením 2048 × 2048 alebo vyšším.

Nové hĺbkové vedenie stable diffusion model, depth2img, rozširuje predchádzajúcu funkciu obrazu na obrázok z V1 o úplne nové kreatívne možnosti. Depth2img určuje hĺbku vstupného obrázka (pomocou existujúceho modelu) a potom vygeneruje nový obrazy na základe textu aj informácií o hĺbke. Depth-to-Image môže poskytnúť množstvo nových kreatívnych aplikácií, ktoré ponúkajú zmeny, ktoré sa zdajú byť výrazne odlišné od originálu, pričom si zachovávajú koherenciu a hĺbku obrazu.

Čo je nové v Stable Diffusion 2?

  • Nový stable diffusion model ponúka rozlíšenie 768 × 768.
  • U-Net má rovnaké množstvo parametrov ako verzia 1.5, ale je trénovaný od začiatku a ako textový kódovač používa OpenCLIP-ViT/H. Takzvaný v-predikčný model je SD 2.0-v.
  • Vyššie uvedený model bol upravený zo základne SD 2.0, ktorá je tiež k dispozícii a bola trénovaná ako typický model predikcie šumu na obrázkoch 512 × 512.
  • Bol pridaný model latentnej textom riadenej difúzie s x4 mierkou.
  • Rafinované hĺbkové vedenie so základňou SD 2.0 stable diffusion model. Model sa môže použiť na img2img zachovávajúci štruktúru a tvarovo podmienenú syntézu a je podmienený odhadmi monokulárnej hĺbky odvodenými pomocou MiDaS.
  • Vylepšený textom riadený model maľovania postavený na základoch SD 2.0.

Vývojári tvrdo pracovali, rovnako ako pri počiatočnej iterácii Stable Diffusion, aby optimalizovali model tak, aby bežal na jedinom GPU – od začiatku ho chceli sprístupniť čo najväčšiemu počtu ľudí. Už videli, čo sa stane, keď milióny jednotlivcov dostanú do rúk tieto modely a spolupracujú na stavbe absolútne pozoruhodných vecí. Toto je sila open source: využitie obrovského potenciálu miliónov talentovaných ľudí, ktorí možno nemajú prostriedky na vycvičenie špičkového modelu, ale majú schopnosť s ním robiť neuveriteľné veci.

Čo je nové v Stable Diffusion 2?

Táto nová aktualizácia v kombinácii s výkonnými novými funkciami, ako je depth2img a lepšie možnosti zvýšenia rozlíšenia, poslúži ako základ pre množstvo nových aplikácií a umožní explóziu nového kreatívneho potenciálu.

Prečítajte si viac o Stable Diffusion:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.