Uutisraportti Elektroniikka
Tammikuu 24, 2023

GLIGEN: uusi jäädytetty tekstistä kuvaksi sukupolvimalli, jossa on rajauslaatikko

Lyhyesti

GLIGEN tai Grounded-Language-to-Image Generation on uusi tekniikka, joka perustuu nykyisten valmiiksi koulutettujen diffuusiomallien ominaisuuksiin ja laajentaa niiden kykyä.

Kuvatekstien ja rajoituslaatikoiden ehtotulojen avulla GLIGEN-malli luo avoimen maailman maadoitettua text2img:tä.

GLIGEN voi luoda erilaisia ​​objekteja tietyissä paikoissa ja tyyleissä hyödyntämällä valmiiksi koulutetun text2img-mallin tietoa.

GLIGEN voi myös maadoittaa ihmisen avainpisteitä luodessaan tekstiä kuviksi.

Laajamittainen tekstistä kuvaksi diffuusiomallit ovat edenneet pitkälle. Nykyinen käytäntö on kuitenkin luottaa pelkästään tekstinsyöttöön, mikä voi rajoittaa ohjattavuutta. GLIGEN, tai Grounded-Language-to-Image Generation, on uusi tekniikka, joka rakentuu nykyisille esiopetetuille tekstistä kuvaksi diffuusiomalleille ja laajentaa niiden kykyä sallimalla niiden ehdollistamisen maadoitustuloihin.

GLIGEN: uusi jäädytetty tekstistä kuvaksi sukupolvimalli, jossa on rajauslaatikko

Säilyttääkseen esikoulutetun mallin laajan konseptitietämyksen kehittäjät jäädyttävät sen kaikki painot ja pumppaavat maadoitustiedot uusiin koulutettaviin kerroksiin hallitun prosessin kautta. Kuvatekstien ja rajoituslaatikoiden ehtotulojen avulla GLIGEN-malli luo avoimen maailman maadoitettua tekstiä kuvaksi, ja maadoituskyky yleistyy tehokkaasti uusiin tilakonfiguraatioihin ja konsepteihin.

Tutustu esittely tästä.

GLIGEN perustuu olemassa oleviin esikoulutettuihin diffuusiomalleihin, joiden alkuperäiset painot on jäädytetty valtavan määrän esikoulutettua tietoa säilyttämiseksi.
  • GLIGEN perustuu olemassa olevaan esikoulutettuun diffuusio malleja, jonka alkuperäiset painot on jäädytetty valtavan määrän esikoulutettua tietoa säilyttämiseksi.
  • Jokaiseen muuntajalohkoon luodaan uusi koulutettava Gated Self-Attention -kerros imemään ylimääräistä maadoitustuloa.
  • Jokaisella maadoitustunnisteella on kahden tyyppistä tietoa: semanttista tietoa maadoitetusta asiasta (koodattu teksti tai kuva) ja paikkatieto (koodattu rajoitusruutu tai avainpisteet).
Aiheeseen liittyvä artikkeli: VToonify: Reaaliaikainen tekoälymalli taiteellisten muotokuvavideoiden luomiseen
Äskettäin lisättyjä moduloituja kerroksia esiopetetaan jatkuvasti massiivisella maadoitusdatalla (image-text-box), mikä on kustannustehokkaampaa kuin vaihtoehtoiset menetelmät käyttää esiopetettua diffuusiomallia, kuten täyden mallin hienosäätö. Legon tapaan erilaisia ​​koulutettuja kerroksia voidaan kytkeä sisään ja ulos erilaisten uusien ominaisuuksien mahdollistamiseksi.
Äskettäin lisätyt moduloidut kerrokset ovat jatkuvasti esikoulutettuja massiivisella maadoitusdatalla (image-text-box). Tämä on kustannustehokkaampaa kuin vaihtoehtoiset esikoulutetut menetelmät diffuusio malli, kuten täyden mallin hienosäätö. Legon tapaan erilaisia ​​koulutettuja kerroksia voidaan kytkeä sisään ja ulos erilaisten uusien ominaisuuksien mahdollistamiseksi.
GLIGEN tukee ajoitettua näytteenottoa diffuusioprosessissa johtopäätösten tekemiseksi, jolloin malli voi dynaamisesti valita käyttääkseen maadoitusmerkkejä (lisäämällä uusi kerros) tai alkuperäistä diffuusiomallia, jossa on hyvä ennakko (poistamalla uusi kerros), ja siten tasapainottaa sukupolven laatua. ja maadoituskyky.
GLIGEN tukee ajoitettua näytteenottoa diffuusioprosessissa johtopäätösten tekemiseksi, jolloin malli voi dynaamisesti valita käyttääkseen maadoitusmerkkejä (lisäämällä uusi kerros) tai alkuperäistä diffuusiomallia, jossa on hyvä ennakko (poistamalla uusi kerros), ja siten tasapainottaa sukupolven laatua. ja maadoituskyky.
GLIGEN voi luoda erilaisia ​​objekteja tietyissä paikoissa ja tyyleissä hyödyntämällä valmiiksi koulutetun text2img-mallin tietoa.
GLIGEN voi luoda erilaisia ​​objekteja tietyissä paikoissa ja tyyleissä hyödyntämällä valmiiksi koulutetun text2img-mallin tietoa.
Aiheeseen liittyvä artikkeli: Microsoft on julkaissut diffuusiomallin, joka voi rakentaa 3D-avatarin yhdestä henkilön valokuvasta
GLIGENiä voi myös harjoitella referenssikuvien avulla.
GLIGENiä voi myös harjoitella referenssikuvien avulla. Ylärivi viittaa siihen, että viitevalokuvat voivat kirjallisten kuvausten lisäksi tarjota tarkempia ominaisuuksia, kuten tyylin ja muodon. Toinen rivi osoittaa, että viitekuvaa voidaan käyttää myös tyylikuvana, jolloin havaitaan, että sen maadoitus kuvan kulmaan tai reunaan riittää.
GLIGEN, kuten muutkin diffuusiomallit, voi suorittaa maadoitetun kuvan maalauksen, joka voi luoda objekteja, jotka vastaavat läheisesti mukana toimitettuja rajoituslaatikoita.
GLIGEN, kuten muutkin diffuusiomallit, voi suorittaa maadoitetun kuvan maalauksen, joka voi luoda objekteja, jotka vastaavat läheisesti mukana toimitettuja rajoituslaatikoita.
GLIGEN voi myös maadoittaa ihmisen avainpisteitä luodessaan tekstiä kuviksi.
GLIGEN voi myös maadoittaa ihmisen avainpisteitä samalla luoda tekstiä kuviksi.

Lue lisää tekoälystä:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Bisnes Uutisraportti Elektroniikka
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Voi 3, 2024
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
markkinat Uutisraportti Elektroniikka
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
Voi 3, 2024
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
markkinat Uutisraportti Elektroniikka
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
Voi 3, 2024
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Bisnes Uutisraportti Elektroniikka
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Voi 3, 2024
CRYPTOMERIA LABS PTE. OY.