Novembris 17, 2022

Nvidia paziņoja par eDiff-I: jaunu ģeneratīvu AI teksta un attēlu sintēzei ar tūlītēju stilu pārsūtīšanu

Publicēts: 17. gada 2022. novembrī plkst. 8:30 Atjaunināts: 17. gada 2022. novembrī plkst. 7:30

Īsumā

Nvidia izlaiž eDiff-I, lai palīdzētu uzņēmumiem izveidot augstas kvalitātes, saistošus attēlus

eDiff-I tehnika regulāri nodrošina augstāku sintēzes kvalitāti nekā DALL-E2 un Stable diffusion

eDiff-I ir jauns AI satura izveides rīks, kas nodrošina bezprecedenta teksta-attēlu sintēzes iespējas mārketinga speciālistiem un uzņēmumiem, kā nesen paziņoja Nvidia. Izmantojot eDiff-I, uzņēmumi var ātri un vienkārši izveidot augstas kvalitātes, saistošus vizuālos attēlus, neizmantojot dārgu aprīkojumu vai profesionālu palīdzību. eDiff-I izmanto dabiskās valodas apstrādi (NLP), lai interpretētu lietotāja ievadi un ģenerētu atbilstošus attēlus. Pēc tam AI analizē attēlus un, pamatojoties uz kontekstu, izvēlas vispiemērotāko. Rezultātā tiek iegūts kvalitatīvs, profesionāla izskata attēls, ko var izmantot dažādiem mērķiem, piemēram, mārketinga materiāliem, ierakstiem sociālajos tīklos, e-pasta kampaņās u.c.

eDiff-I ir a nākamās paaudzes ģeneratīvais AI satura veidošanas rīks, kas nodrošina vēl nebijušu teksts-attēls sintēze, ātra stila pārnešana un intuitīva gleznošana ar vārdiem. Kā difūzijas modeli vizuālo attēlu veidošanai no teksta, eDiff-I iesaka apmācīt ekspertu trokšņu slāpēšanas tīklu ansambli, katrs no tiem ir specializējies noteiktam trokšņa intervālam, reaģējot uz empīrisko konstatējumu, ka difūzijas modeļu uzvedība dažādās paraugu ņemšanas fāzēs atšķiras.

Nvidia paziņoja par eDiff-I: jaunu ģeneratīvu AI teksta un attēlu sintēzei ar tūlītēju stilu pārsūtīšanu

T5 teksta iegulšana, CLIP attēlu iegulšana un CLIP teksta iegulšana nodrošina eDiff-I koncepcijas pamatu. Šī metodoloģija var radīt fotoreālistiskas grafikas, reaģējot uz jebkuru teksta vaicājumu.

Papildus teksta-attēlu sintēzei tajā ir divas papildu iespējas: (1) stila pārsūtīšana, kas ļauj mums kontrolēt ģenerētā parauga stilu, izmantojot atsauces stila attēlu, un (2) rīks "Paint with Words". kas ļauj lietotājiem izveidot attēlus, krāsojot segmentācijas kartes uz audekla.

Cauruļvads sastāv no trīs difūzijas modeļu kaskādes: bāzes modeļa, kas var izveidot paraugus ar izšķirtspēju 64 × 64, un divas superizšķirtspējas kopas, kas var pakāpeniski palielināt attēlu paraugus līdz attiecīgi 256 × 256 un 1024 × 1024 izšķirtspējai. Modeļi aprēķina T5 XXL un teksta iegulšanu pēc paraksta saņemšanas kā ievades. Šos attēlu iegulumus var izmantot kā stila vektoru. Pēc tam ievadiet šīs iegulšanas mūsu kaskādē difūzijas modeļi, kas pakāpeniski rada attēlus ar 1024 x 1024 izšķirtspēju.

eDiff-I pieeja konsekventi nodrošina labāku sintēzes kvalitāti, salīdzinot ar atvērtā koda teksta-attēlu algoritmiem (Stable diffusion) un (DALL-E2).

Kad tiek izmantoti CLIP attēlu ieguljumi, eDiff-I pieeja atvieglo stila pārsūtīšanu. eDiff-I vispirms izvelk CLIP attēla iegulšana no atsauces stila attēla, ko var izmantot kā stila atsauces vektoru. Stilistisku atsauci var redzēt attēlā zemāk esošajā kreisajā panelī. Rezultāti, kad stila kondicionēšana ir ieslēgta, tiek parādīti centrālajā panelī. Rezultāti, kad stila kondicionēšana ir izslēgta, tiek parādīti panelī labajā pusē. Kad tiek lietota stila kondicionēšana, eDiff-I modelis izveido izvades, kas atbilst arī ievades paraksta stilam. Kad stila regulēšana ir izslēgta, tiek radīti dabiska izskata fotoattēli.

Izvēloties frāzes un uzrakstot tās uz attēla, eDiff-I metodes lietotāji var mainīt teksta uzvednē norādīto lietu izvietojumu. Pēc tam modelis izmanto uzvedni un kartes, lai izveidotu attēlus kas ir saderīgi gan ar parakstu, gan ievades karti.

Lasiet saistītos rakstus:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs