Uutisraportti
Maaliskuussa 20, 2023

Uusi tekstistä kuvaksi -malli GigaGAN voi luoda 4K-kuvia 3.66 sekunnissa

Lyhyesti

Tutkijat ovat kehittäneet uuden tekstistä kuvaksi -mallin nimeltä GigaGAN, joka voi tuottaa 4K-kuvia 3.66 sekunnissa.

Se perustuu GAN (generative adversarial network) -kehykseen, joka on eräänlainen neuroverkkomallien jotka voivat oppia luomaan harjoitustietojoukon kaltaisia ​​tietoja. GigaGAN pystyy tuottamaan 512 kuvapisteen kuvia 0.13 sekunnissa, 10 kertaa nopeammin kuin edellinen huippuluokan malli, ja siinä on irrotettu, jatkuva ja hallittavissa oleva piilevä tila.

Sitä voidaan käyttää myös tehokkaan, laadukkaamman upsamplerin kouluttamiseen.

Tutkijat ovat kehittäneet uuden tekstistä kuvaksi -mallin nimeltä GigaGAN joka voi tuottaa 4K-kuvia 3.66 sekunnissa. Tämä on merkittävä parannus olemassa oleviin tekstistä kuvaksi -malleihin, joissa yhden kuvan luominen voi kestää minuutteja tai jopa tunteja.

Uusi tekstistä kuvaksi -malli GigaGAN voi tuottaa 4K-kuvia 3.66 sekunnissa

GigaGAN perustuu GAN (generative adversarial network) -kehykseen, joka on eräänlainen hermoverkko, joka voi oppia luomaan opetustietojoukon kaltaisia ​​tietoja. GAN:ia on käytetty luomaan realistisia kuvia kasvoista, maisemista ja jopa Street View -kuvista.

Lue lisää: 5+ vuoden 2023 odotetuinta tekstistä kuvaksi tekoälymallia

Uusi malli on koulutettu 1 miljardin kuvan tietojoukolle, joka on suuruusluokkaa suurempi kuin aikaisempien tekstistä kuvaksi -mallien kouluttamiseen käytetyt tietojoukot. Tämän seurauksena GigaGAN pystyy luomaan 512 pikselin kuvia 0.13 sekunnissa, mikä on yli 10 kertaa nopeampi kuin edellinen huippuluokan tekstistä kuvaksi -malli.

Lisäksi GigaGANissa on irrotettu, jatkuva ja hallittava piilevä tila. Tämä tarkoittaa, että GigaGAN voi luoda kuvia, joilla on useita eri tyylejä, ja että luotuja kuvia voidaan ohjata jossain määrin. Esimerkiksi GigaGAN voi luoda kuvia, jotka säilyttävät tekstinsyötön asettelun, mikä on tärkeää sovelluksille esimerkiksi luotaessa kuvia tuoteasetteluista tekstikuvauksista.

GigaGANia voidaan käyttää myös tehokkaan, laadukkaamman upsamplerin kouluttamiseen. Tätä voidaan soveltaa oikeisiin kuviin tai muiden tulosteisiin tekstistä kuvaksi -mallit.

Tekstin koodaushaara, tyylikartoitusverkko, monimuotoinen synteesiverkko sekä vakaa huomio ja mukautuva ytimen valinta ovat kaikki osa GigaGAN-generaattoria. Kehittäjät aloittavat tekstin koodaushaaran purkamalla tekstin upotukset valmiiksi koulutetulla CLIP-mallilla ja opituilla huomiotasoilla T. Samoin kuin StyleGAN, upotus välitetään tyylinkuvausverkkoon M, joka generoi tyylivektorin w. Kuvapyramidin luomiseksi synteesiverkko käyttää nyt tyylikoodia modulaationa ja tekstin upotuksia huomiona. Lisäksi kehittäjät ottavat käyttöön näytteen mukautuvan ytimen valinnan konvoluutioytimien valitsemiseksi adaptiivisesti syöttötekstin ehdoin perustuen.

Diskriminaattorissa, kuten generaattorissa, on kaksi haaraa kuvan ja tekstin käsittelyyn. Tekstihaara, kuten generaattori, käsittelee tekstiä. Kuvahaara saa kuvapyramidin ja sen tehtävänä on tehdä itsenäisiä ennusteita kullekin kuvaskaalalle. Lisäksi ennusteita tehdään kaikilla myöhemmillä alasnäytteityskerroksen asteikoilla. Lisätappioita käytetään myös tehokkaan lähentymisen edistämiseen.

Kuten interpolointiruudukosta näkyy, GigaGAN mahdollistaa sujuvan interpoloinnin kehotteiden välillä. Neljä kulmaa luodaan käyttämällä samaa latenttia z:tä, mutta eri tekstikehotteita.

Koska GigaGAN säilyttää erotetun piilevän tilan, kehittäjät voivat yhdistää yhden näytteen karkean tyylin toisen hienon tyylin kanssa. GigaGAN voi myös ohjata tyyliä suoraan tekstikehotteilla.

Lue lisää aiheeseen liittyviä artikkeleita:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän

Samourai Walletin perustajia syytetään 2 miljardin dollarin helpottamisesta Darknet-kaupoissa

Samourai Walletin perustajien pelko on huomattava takaisku teollisuudelle, mikä korostaa jatkuvaa ...

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Pantera Capital sijoittaa TON Blockchainiin, ilmaisee luottamusta Telegramin mahdollisuuksiin laajentaa krypton saatavuutta
Bisnes Uutisraportti Elektroniikka
Pantera Capital sijoittaa TON Blockchainiin, ilmaisee luottamusta Telegramin mahdollisuuksiin laajentaa krypton saatavuutta
Voi 2, 2024
Mitosis kerää 7 miljoonan dollarin rahoitusta Amber Groupilta ja Foresight Ventures -yhtiöiltä modulaarisen likviditeettiprotokollansa edistämiseksi
Bisnes Uutisraportti Elektroniikka
Mitosis kerää 7 miljoonan dollarin rahoitusta Amber Groupilta ja Foresight Ventures -yhtiöiltä modulaarisen likviditeettiprotokollansa edistämiseksi
Voi 2, 2024
Galxe tekee yhteistyötä Jambon kanssa laajentaakseen maailmanlaajuista saavutettavuutta Web3
Bisnes Uutisraportti Elektroniikka
Galxe tekee yhteistyötä Jambon kanssa laajentaakseen maailmanlaajuista saavutettavuutta Web3
Voi 2, 2024
Hongkongin lakiasäätävän neuvoston jäsen Wu Jiezhuang ilmoittaa siviilioikeudesta JPEX-salauspörssiä vastaan
Bisnes Uutisraportti Elektroniikka
Hongkongin lakiasäätävän neuvoston jäsen Wu Jiezhuang ilmoittaa siviilioikeudesta JPEX-salauspörssiä vastaan
Voi 2, 2024
CRYPTOMERIA LABS PTE. OY.