Martie 20, 2023

Noul model text-to-image GigaGAN poate genera imagini 4K în 3.66 s

Publicat: 20 martie 2023 la 4:10 Actualizat: 20 martie 2023 la 4:11

Pe scurt

Cercetătorii au dezvoltat un nou model text-to-image numit GigaGAN, care poate genera imagini 4K la 3.66 secunde.

Se bazează pe cadrul GAN (generative adversarial network), care este un tip de rețele neuronale care poate învăța să genereze date similare cu un set de date de antrenament. GigaGAN este capabil să genereze imagini de 512 pixeli la 0.13 secunde, de 10 ori mai rapid decât modelul anterior de ultimă generație și are un spațiu latent dezlegat, continuu și controlabil.

De asemenea, poate fi folosit pentru a antrena un eșantioner eficient și de calitate superioară.

Cercetătorii au dezvoltat un nou model text-to-image numit GigaGAN care poate genera Imagini 4K în 3.66 secunde. Aceasta este o îmbunătățire majoră față de modelele existente text-to-image, care poate dura minute sau chiar ore pentru a genera o singură imagine.

Noul model text-to-image GigaGAN poate genera imagini 4K la 3.66 s

GigaGAN se bazează pe cadrul GAN (generative adversarial network), care este un tip de rețea neuronală care poate învăța să genereze date similare cu un set de date de antrenament. GAN-urile au fost folosite pentru a genera imagini realiste ale fețelor, peisajelor și chiar imaginilor Street View.

Citeşte mai mult: Cele mai anticipate 5 modele AI text-to-image din 2023

Noul model a fost antrenat pe un set de date de 1 miliard de imagini, care este cu ordine de mărime mai mare decât seturile de date folosite pentru a antrena modele anterioare text-to-image. Ca rezultat, GigaGAN este capabil să genereze imagini de 512 pixeli la 0.13 secunde, ceea ce este de peste 10 ori mai rapid decât modelul anterior de ultimă generație text-to-image.

În plus, GigaGAN vine cu un spațiu latent dezlegat, continuu și controlabil. Aceasta înseamnă că GigaGAN poate genera imagini care au o varietate de stiluri diferite și că imaginile generate pot fi controlate într-o oarecare măsură. De exemplu, GigaGAN poate genera imagini care păstrează aspectul introducerii textului, ceea ce este important pentru aplicații, de exemplu, atunci când generează imagini cu aspectul produselor din descrierile de text.

GigaGAN poate fi, de asemenea, folosit pentru a antrena un eșantionare eficient, de calitate superioară. Acest lucru poate fi aplicat imaginilor reale sau ieșirilor altora modele text-to-image.

O ramură de codificare a textului, o rețea de cartografiere a stilurilor, o rețea de sinteză multi-scală și o atenție stabilă și o selecție adaptivă a nucleului fac toate parte din generatorul GigaGAN. Dezvoltatorii încep ramura de codificare a textului prin extragerea înglobărilor de text cu un model CLIP pre-antrenat și straturi de atenție învățate T. În mod similar StyleGAN, încorporarea este transmisă rețelei de mapare a stilurilor M, care generează vectorul de stil w. Pentru a genera o piramidă de imagine, rețeaua de sinteză folosește acum codul de stil ca modulare și încorporarea textului ca atenție. În plus, dezvoltatorii introduc selecția nucleului adaptiv la eșantion pentru a selecta nucleele de convoluție în mod adaptiv pe baza condiționării textului de intrare.

Discriminatorul, ca și generatorul, are două ramuri pentru prelucrarea imaginii și condiționarea textului. Ramura text, ca și generatorul, procesează textul. Ramura imaginii primește o piramidă de imagine și are sarcina de a face predicții independente pentru fiecare scară de imagine. Mai mult, predicțiile sunt făcute la toate scările ulterioare ale stratului de eșantionare. Pierderile suplimentare sunt, de asemenea, utilizate pentru a încuraja convergența efectivă.

După cum se arată în grila de interpolare, GigaGAN permite o interpolare lină între solicitări. Cele patru colțuri sunt create folosind același z latent, dar mesaje text diferite.

Deoarece GigaGAN păstrează un spațiu latent dezlegat, dezvoltatorii pot combina stilul grosier al unui eșantion cu stilul fin al altuia. De asemenea, GigaGAN poate controla stilul direct cu solicitări text.

Citiți mai multe articole conexe:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.

Mai multe articole

Damir Yalalov