Januar 24, 2023

GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme

Udgivet: 24. januar 2023 kl. 5 Opdateret: 00. marts 21 kl. 2024

Redigeret og faktatjekket: 24. januar 2023 kl. 5

Kort sagt

GLIGEN, eller Grounded-Language-to-Image Generation, er en ny teknik, der bygger på og udvider mulighederne for nuværende forudtrænede diffusionsmodeller.

Med billedtekst- og afgrænsningsbokstilstandsindgange genererer GLIGEN-modellen åben-verden jordet text2img.

GLIGEN kan generere en række objekter på bestemte steder og stilarter ved at udnytte viden fra en forudtrænet text2img-model.

GLIGEN kan også jorde menneskelige nøglepunkter, mens der genereres tekst-til-billeder.

Storskala tekst-til-billede diffusionsmodeller er nået langt. Den nuværende praksis er dog udelukkende at stole på tekstinput, hvilket kan begrænse kontrollerbarheden. GLIGEN, eller Grounded-Language-to-Image Generation, er en ny teknik, der bygger på og udvider kapaciteten af nuværende forudtrænede tekst-til-billede-diffusionsmodeller ved at tillade dem at blive betinget af jordforbindelse.

GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme

For at vedligeholde den fortrænede models omfattende konceptviden fryser udviklerne alle dens vægte og pumper jordforbindelsesinformationen ind i friske, trænelige lag via en kontrolleret proces. Med input af billedtekst og afgrænsningsbokstilstand genererer GLIGEN-modellen åben verden jordet tekst-til-billede, og jordingsevnen generaliserer effektivt til nye rumlige konfigurationer og koncepter.

Tjek den demo her.

GLIGEN er baseret på eksisterende fortrænede diffusionsmodeller, hvis originale vægte er blevet frosset for at bevare enorme mængder af forudtrænet viden.

GLIGEN er baseret på eksisterende fortrænede diffusionsmodeller, hvis originale vægte er blevet frosset for at bevare enorme mængder af fortrænet viden.
Ved hver transformerblok er der oprettet et nyt, trænet Gated Self-Attention-lag for at absorbere yderligere jording.
Hvert jordingstoken har to typer information: semantisk information om den jordede ting (kodet tekst eller billede) og rumlig positionsinformation (kodet afgrænsningsramme eller nøglepunkter).

Relateret artikel: VToonify: En AI-model i realtid til generering af kunstneriske portrætvideoer

Nyt tilføjede modulerede lag fortrænes løbende på massive jordingsdata (image-text-box), hvilket er mere omkostningseffektivt end alternative metoder til at bruge en forudtrænet diffusionsmodel, såsom finjustering af fuld model. I lighed med Lego kan forskellige trænede lag tilsluttes og ud for at tillade forskellige nye muligheder. — Nyt tilføjede modulerede lag fortrænes løbende på massive jordingsdata (billedtekstboks). Dette er mere omkostningseffektivt end alternative metoder til at bruge en præ-trænet diffusionsmodel, såsom finjustering af fuld model. I lighed med Lego kan forskellige trænede lag tilsluttes og ud for at tillade forskellige nye muligheder.

GLIGEN understøtter planlagt sampling i diffusionsprocessen for inferens, hvor modellen dynamisk kan vælge at bruge jordingstokens (ved at tilføje det nye lag) eller den originale diffusionsmodel med god forud (ved at sparke det nye lag ud), og dermed balancere generationskvaliteten og jordingsevne.

GLIGEN kan generere en række objekter på bestemte steder og stilarter ved at udnytte viden fra en forudtrænet text2img-model.

Relateret artikel: Microsoft har udgivet en diffusionsmodel, der kan bygge en 3D-avatar ud fra et enkelt foto af en person

GLIGEN kan også trænes ved hjælp af referencebilleder. Den øverste række antyder, at referencefotografier udover skriftlige beskrivelser kan give mere finkornede egenskaber som stil og form på bilen. Den anden række viser, at et referencebillede også kan bruges som et stilbillede, i hvilket tilfælde vi opdager, at det er tilstrækkeligt at jorde det i et hjørne eller en kant af et billede.

GLIGEN kan ligesom andre diffusionsmodeller udføre jordet billedinpaint, som kan generere objekter, der matcher de medfølgende afgrænsningskasser.

GLIGEN kan også jorde menneskelige nøglepunkter, mens der genereres tekst-til-billeder. — GLIGEN kan også jorde menneskelige nøglepunkter, mens generere tekst-til-billeder.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov