Nyheds rapport Teknologier
November 17, 2022

Nvidia annoncerede eDiff-I: ny generativ AI til tekst- og billedsyntese med øjeblikkelig overførsel af stilarter

Kort sagt

Nvidia lancerer eDiff-I for at hjælpe virksomheder med at skabe engagerende billeder af høj kvalitet

eDiff-I-teknikken producerer jævnligt større syntesekvalitet end DALL-E2 og Stable diffusion

eDiff-I er et nyt AI-indholdsskabelsesværktøj, der giver hidtil usete tekst-til-billede syntesefunktioner for marketingfolk og virksomheder, som for nylig annonceret af Nvidia. Med eDiff-I kan virksomheder hurtigt og nemt skabe engagerende billeder af høj kvalitet uden behov for dyrt udstyr eller professionel hjælp. eDiff-I bruger naturlig sprogbehandling (NLP) til at fortolke brugerens input og generere tilsvarende billeder. AI'en analyserer derefter billederne og vælger det bedst egnede baseret på konteksten. Resultatet er et professionelt udseende billede af høj kvalitet, der kan bruges til en række forskellige formål, såsom marketingmateriale, opslag på sociale medier, e-mail-kampagner og meget mere.

eDiff-I er en næste generations generative AI værktøj til oprettelse af indhold, der giver hidtil uset tekst-til-billede syntese, hurtig stiloverførsel og intuitiv maling med ord. Som en diffusionsmodel til at skabe billeder ud fra tekst, foreslår eDiff-I at træne et ensemble af ekspertnetværk, som hver især er specialiseret i et bestemt støjinterval, som svar på den empiriske konstatering, at diffusionsmodellernes adfærd varierer i forskellige faser af prøvetagningen.

Nvidia annoncerede eDiff-I: ny generativ AI til tekst- og billedsyntese med øjeblikkelig overførsel af stilarter

T5-tekstindlejringer, CLIP-billedindlejringer og CLIP-tekstindlejringer udgør grundlaget for eDiff-I-konceptet. Denne metode kan producere fotorealistisk grafik som svar på enhver tekstforespørgsel.

Den præsenterer to yderligere muligheder ud over tekst-til-billede-syntese: (1) stiloverførsel, som giver os mulighed for at kontrollere stilen for den genererede prøve ved hjælp af et referencestilbillede og (2) "Paint with Words", et værktøj der giver brugerne mulighed for at skabe billeder ved at male segmenteringskort på lærred.

Pipeline
Pipeline

Rørledningen består af en kaskade af tre diffusionsmodeller: en basismodel, der kan skabe prøver med en opløsning på 64×64 og to superopløsningsstakke, der gradvist kan upsample billederne til opløsninger på henholdsvis 256×256 og 1024×1024. Modeller beregner T5 XXL og tekstindlejring efter at have modtaget en billedtekst som input. Disse billedindlejringer kan bruges som en vektor for stil. Før derefter disse indlejringer ind i vores kaskade diffusionsmodeller, som gradvist producerer billeder med en opløsning på 1024 x 1024.

eDiff-I tilgang resulterer konsekvent i bedre syntesekvalitet sammenlignet med open source tekst-til-billede-algoritmerne (Stable diffusion) og (DALL-E2).

Resultater
Resultater

Når CLIP-billedindlejringerne anvendes, letter eDiff-I-tilgangen stiloverførsel. eDiff-I udtrækker først CLIP billedindlejringer fra et referencestilbillede, som kan bruges som en stilreferencevektor. En stilistisk reference kan ses i nedenstående figurs venstre panel. Resultaterne, når stilkonditionering er slået til, vises i midterpanelet. Resultaterne, når stilkonditionering er slået fra, vises i panelet til højre. Når stilkonditionering anvendes, skaber eDiff-I-modellen output, der også er tro mod inputtekstens stil. Når stilkonditionering er slået fra, produceres fotos med naturligt udseende.

Stiloverførsel
Stiloverførsel

Ved at vælge sætninger og skrive dem på billedet, kan brugere af eDiff-I-metoden ændre placeringen af ​​ting, der er angivet i tekstprompten. Derefter bruger modellen prompt og kortene for at oprette billeder der er kompatible med både billedteksten og inputkortet.

Læs relaterede artikler:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Forretning Nyheds rapport Teknologier
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Maj 2, 2024
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Forretning Nyheds rapport Teknologier
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Maj 2, 2024
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Forretning Nyheds rapport Teknologier
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Maj 2, 2024
Googles Med-Gemini klar til at give et forspring GPT-4 Med sin overlegne ydeevne inden for sundhedspleje
AI Wiki Nyheder Software Teknologier
Googles Med-Gemini klar til at give et forspring GPT-4 Med sin overlegne ydeevne inden for sundhedspleje
Maj 2, 2024