Uusi tekstistä kuvaksi -malli GigaGAN voi luoda 4K-kuvia 3.66 sekunnissa
Lyhyesti
Tutkijat ovat kehittäneet uuden tekstistä kuvaksi -mallin nimeltä GigaGAN, joka voi tuottaa 4K-kuvia 3.66 sekunnissa.
Se perustuu GAN (generative adversarial network) -kehykseen, joka on eräänlainen neuroverkkomallien jotka voivat oppia luomaan harjoitustietojoukon kaltaisia tietoja. GigaGAN pystyy tuottamaan 512 kuvapisteen kuvia 0.13 sekunnissa, 10 kertaa nopeammin kuin edellinen huippuluokan malli, ja siinä on irrotettu, jatkuva ja hallittavissa oleva piilevä tila.
Sitä voidaan käyttää myös tehokkaan, laadukkaamman upsamplerin kouluttamiseen.
Tutkijat ovat kehittäneet uuden tekstistä kuvaksi -mallin nimeltä GigaGAN joka voi tuottaa 4K-kuvia 3.66 sekunnissa. Tämä on merkittävä parannus olemassa oleviin tekstistä kuvaksi -malleihin, joissa yhden kuvan luominen voi kestää minuutteja tai jopa tunteja.
GigaGAN perustuu GAN (generative adversarial network) -kehykseen, joka on eräänlainen hermoverkko, joka voi oppia luomaan opetustietojoukon kaltaisia tietoja. GAN:ia on käytetty luomaan realistisia kuvia kasvoista, maisemista ja jopa Street View -kuvista.
Uusi malli on koulutettu 1 miljardin kuvan tietojoukolle, joka on suuruusluokkaa suurempi kuin aikaisempien tekstistä kuvaksi -mallien kouluttamiseen käytetyt tietojoukot. Tämän seurauksena GigaGAN pystyy luomaan 512 pikselin kuvia 0.13 sekunnissa, mikä on yli 10 kertaa nopeampi kuin edellinen huippuluokan tekstistä kuvaksi -malli.
Lisäksi GigaGANissa on irrotettu, jatkuva ja hallittava piilevä tila. Tämä tarkoittaa, että GigaGAN voi luoda kuvia, joilla on useita eri tyylejä, ja että luotuja kuvia voidaan ohjata jossain määrin. Esimerkiksi GigaGAN voi luoda kuvia, jotka säilyttävät tekstinsyötön asettelun, mikä on tärkeää sovelluksille esimerkiksi luotaessa kuvia tuoteasetteluista tekstikuvauksista.
GigaGANia voidaan käyttää myös tehokkaan, laadukkaamman upsamplerin kouluttamiseen. Tätä voidaan soveltaa oikeisiin kuviin tai muiden tulosteisiin tekstistä kuvaksi -mallit.
Tekstin koodaushaara, tyylikartoitusverkko, monimuotoinen synteesiverkko sekä vakaa huomio ja mukautuva ytimen valinta ovat kaikki osa GigaGAN-generaattoria. Kehittäjät aloittavat tekstin koodaushaaran purkamalla tekstin upotukset valmiiksi koulutetulla CLIP-mallilla ja opituilla huomiotasoilla T. Samoin kuin StyleGAN, upotus välitetään tyylinkuvausverkkoon M, joka generoi tyylivektorin w. Kuvapyramidin luomiseksi synteesiverkko käyttää nyt tyylikoodia modulaationa ja tekstin upotuksia huomiona. Lisäksi kehittäjät ottavat käyttöön näytteen mukautuvan ytimen valinnan konvoluutioytimien valitsemiseksi adaptiivisesti syöttötekstin ehdoin perustuen.
Diskriminaattorissa, kuten generaattorissa, on kaksi haaraa kuvan ja tekstin käsittelyyn. Tekstihaara, kuten generaattori, käsittelee tekstiä. Kuvahaara saa kuvapyramidin ja sen tehtävänä on tehdä itsenäisiä ennusteita kullekin kuvaskaalalle. Lisäksi ennusteita tehdään kaikilla myöhemmillä alasnäytteityskerroksen asteikoilla. Lisätappioita käytetään myös tehokkaan lähentymisen edistämiseen.
Kuten interpolointiruudukosta näkyy, GigaGAN mahdollistaa sujuvan interpoloinnin kehotteiden välillä. Neljä kulmaa luodaan käyttämällä samaa latenttia z:tä, mutta eri tekstikehotteita.
Koska GigaGAN säilyttää erotetun piilevän tilan, kehittäjät voivat yhdistää yhden näytteen karkean tyylin toisen hienon tyylin kanssa. GigaGAN voi myös ohjata tyyliä suoraan tekstikehotteilla.
Lue lisää aiheeseen liittyviä artikkeleita:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.