Március 20, 2023

Az új szöveg-képké alakító GigaGAN modell 4 másodperc alatt képes 3.66K képeket generálni

Közzétéve: 20. március 2023., 4:10 Frissítve: 20. március 2023., 4:11

Röviden

A kutatók kifejlesztettek egy új szöveg-kép modellt, a GigaGAN-t, amely 4 másodperc alatt képes 3.66K képeket generálni.

A GAN (generative adversarial network) keretrendszeren alapul, amely egyfajta neurális hálózat amelyek megtanulják a képzési adatkészlethez hasonló adatokat generálni. A GigaGAN 512 másodperc alatt képes 0.13 képpontos képeket generálni, ami 10-szer gyorsabb, mint a korábbi csúcsmodell, és szétválasztott, folyamatos és szabályozható látens térrel rendelkezik.

Hatékony, jobb minőségű upsampler betanítására is használható.

A kutatók új szöveg-kép modellt fejlesztettek ki, az úgynevezett GigaGAN ami generálhat 4K képek 3.66 másodperc alatt. Ez jelentős előrelépés a meglévő szöveg-képmodellekhez képest, amelyeknél percekbe, sőt órákba is telhet egyetlen kép létrehozása.

A GigaGAN új szöveg-képmodell 4 másodperces sebességgel képes 3.66K képeket generálni

A GigaGAN a GAN (generative adversarial network) keretrendszeren alapul, amely egyfajta neurális hálózat, amely képes megtanulni egy tanító adatkészlethez hasonló adatokat generálni. A GAN-okat arra használták, hogy valósághű képeket készítsenek arcokról, tájakról, sőt még az Utcaképről is.

Bővebben: 5+ 2023 legjobban várt szöveg-kép AI modellje

Az új modellt egy 1 milliárd képből álló adatkészletre képezték ki, ami nagyságrendekkel nagyobb, mint a korábbi szöveg-kép modellek betanításához használt adatkészletek. Ennek eredményeként a GigaGAN 512 másodperc alatt képes 0.13 képpontos képeket generálni, ami több mint 10-szer gyorsabb, mint a korábbi, legkorszerűbb szöveg-képmodell.

Ezenkívül a GigaGAN egy szétválasztott, folyamatos és szabályozható látens térrel rendelkezik. Ez azt jelenti, hogy a GigaGAN különféle stílusú képeket tud generálni, és a generált képek bizonyos mértékig vezérelhetők. Például a GigaGAN képes olyan képeket generálni, amelyek megőrzik a szövegbevitel elrendezését, ami fontos az alkalmazások számára, például amikor szöveges leírásokból termékelrendezési képeket generálnak.

A GigaGAN segítségével hatékony, jobb minőségű upsamplert is betaníthatunk. Ez alkalmazható valós képekre vagy más kimenetekre szöveg-kép modellek.

A szövegkódoló ág, a stílusleképezési hálózat, a többléptékű szintézis hálózat, valamint a stabil figyelem és az adaptív kernelválasztás mind a GigaGAN generátor részét képezik. A fejlesztők a szövegkódolási ágat úgy kezdik, hogy egy előre betanított CLIP-modellel és a tanult figyelemrétegekkel T kivonják a szövegbeágyazásokat. StyleGAN, a beágyazás az M stílusleképező hálózathoz kerül, amely létrehozza a w stílusvektort. A képpiramis létrehozásához a szintézis hálózat most a stíluskódot modulációként, a szövegbeágyazásokat pedig figyelemként használja. Ezenkívül a fejlesztők minta-adaptív kernelválasztást vezetnek be a konvolúciós kernelek adaptív kiválasztásához a beviteli szöveg kondicionálása alapján.

A diszkriminátornak a generátorhoz hasonlóan két ága van a kép feldolgozására és a szöveg kondicionálására. A szövegág a generátorhoz hasonlóan feldolgozza a szöveget. A képág kap egy képpiramist, és az a feladat, hogy független előrejelzéseket készítsen minden képskálára. Ezen túlmenően az előrejelzések minden későbbi lemintavételi rétegskálán megtörténnek. A további veszteségeket a hatékony konvergencia ösztönzésére is felhasználják.

Amint az interpolációs rácson látható, a GigaGAN zökkenőmentes interpolációt tesz lehetővé a promptok között. A négy sarok ugyanazzal a látens z-vel, de különböző szöveges promptokkal jön létre.

Mivel a GigaGAN megőrzi a szétválasztott látens teret, a fejlesztők egyesíthetik az egyik minta durva stílusát egy másik finom stílusával. A GigaGAN közvetlenül is vezérelheti a stílust szöveges promptokkal.

Olvasson további kapcsolódó cikkeket:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov