Nyheds rapport Teknologier
19. Juni, 2023

SnapFusion: Hurtig tekst-til-billede-model til mobile enheder inden for 1.9 sekunder

Kort sagt

SnapFusion ændrer indholdsoprettelse ved at køre tekst-til-billede spredningsmodeller direkte på mobile enheder, hvilket reducerer omkostningerne og imødekommer bekymringer om privatlivets fred.

SnapFusion er en tekst-til-billede AI-model, der gør det muligt for brugere at generere fantastiske billeder fra naturlige sprogbeskrivelser, alt sammen inden for blot to sekunder på deres mobile enheder. Tiden med at stole på avancerede GPU'er eller cloud-baserede tjenester er forbi til at køre disse komplekse modeller. SnapFusion demokratiserer skabelse af indhold ved at lægge kraften i tekst-til-billede spredning i hænderne på brugerne.

SnapFusion: Hurtig og effektiv tekst-til-billede-model til mobile enheder inden for 1.9 sekunder
Credit: Midjourney / lili10292#2100

At skabe realistiske billeder ud fra tekstbeskrivelser har altid været en udfordrende opgave. Tidligere modeller krævede store netværksarkitekturer og flere denoising iterationer, hvilket gør dem beregningsmæssigt dyrt og langsomt. Desuden involverede kørsel af disse modeller ofte at sende brugerdata til tredjepartstjenester, hæve privatliv bekymringer.

For at løse disse udfordringer udviklede skaberne af SnapFusion en effektiv netværksarkitektur og forbedrede trindestillationsprocessen. Ved at identificere redundanser i den originale model introducerede de et effektivt UNet og reducerede beregningen af ​​billeddekoderen vha. data destillation. Derudover forbedrede de trindestillationen ved at udforske træningsstrategier og introducere regulariseringsteknikker.

arxiv.org/pdf/2306.00980.pdf

Omfattende forsøg på MS-COCO datasæt demonstrerede SnapFusions overlegenhed. Med kun otte dæmpningstrin opnåede SnapFusion bedre FID- og CLIP-scores sammenlignet med de tidligere state-of-the-art model, Stable Diffusion v1.5, som krævede 50 trin. Denne bemærkelsesværdige forbedring af effektivitet og ydeevne åbner op for nye muligheder for skabelse af indhold.

SnapFusions indvirkning går ud over dets tekniske præstationer. Ved at løbe tekst-til-billede spredningsmodeller direkte på mobile enheder eliminerer det behovet for dyre GPU'er og cloud-baserede tjenester. Dette reducerer ikke kun omkostningerne, men adresserer også bekymringer om privatlivets fred, der er forbundet med at sende brugerdata til tredjeparter. Brugere kan nu slippe deres kreativitet løs og generere billeder i høj kvalitet på farten.

Modellens parameterstørrelse kan reduceres yderligere for at gøre den kompatibel med forskellige kant-enheder. Derudover optimering af modellen til forskellige mobile enheder til opnå hurtig slutning hastigheder er et løbende forskningsemne.

Det er vigtigt at bruge SnapFusion og lignende teknologier ansvarligt for at forhindre ondsindede applikationer. Der kan træffes foranstaltninger, såsom automatiske detektionssystemer, der identificerer og markerer billedindhold, der er i strid med reglerne. Ved at finde en balance mellem innovation og etiske overvejelser kan SnapFusion ændre indholdsoprettelse og samtidig sikre en sikker og ansvarlig brugeroplevelse.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories

Oplev Crypto Whales: Who's Who på markedet

by Viktoria Palchik
Maj 07, 2024
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
LD Capital, Antalpha Ventures og Highblock Limited går sammen for at lancere $128M Hong Kong ETF Liquidity Fund
Forretning Markeder Nyheds rapport
LD Capital, Antalpha Ventures og Highblock Limited går sammen for at lancere $128M Hong Kong ETF Liquidity Fund
Maj 8, 2024
Inside Wall Street Memes (WSM): Afsløring af overskrifterne
Forretning Markeder Historier og anmeldelser Teknologier
Inside Wall Street Memes (WSM): Afsløring af overskrifterne
Maj 7, 2024
Oplev Crypto Whales: Who's Who på markedet
Forretning Markeder Historier og anmeldelser Teknologier
Oplev Crypto Whales: Who's Who på markedet
Maj 7, 2024
Orbiter Finance partnere med Bitcoin Layer 2 Zulu Network og implementeres på er Lwazi Testnet
Forretning Nyheds rapport Teknologier
Orbiter Finance partnere med Bitcoin Layer 2 Zulu Network og implementeres på er Lwazi Testnet 
Maj 7, 2024