Buletin de stiri
Martie 20, 2023

Noul model text-to-image GigaGAN poate genera imagini 4K în 3.66 s

Pe scurt

Cercetătorii au dezvoltat un nou model text-to-image numit GigaGAN, care poate genera imagini 4K la 3.66 secunde.

Se bazează pe cadrul GAN ​​(generative adversarial network), care este un tip de rețele neuronale care poate învăța să genereze date similare cu un set de date de antrenament. GigaGAN este capabil să genereze imagini de 512 pixeli la 0.13 secunde, de 10 ori mai rapid decât modelul anterior de ultimă generație și are un spațiu latent dezlegat, continuu și controlabil.

De asemenea, poate fi folosit pentru a antrena un eșantioner eficient și de calitate superioară.

Cercetătorii au dezvoltat un nou model text-to-image numit GigaGAN care poate genera Imagini 4K în 3.66 secunde. Aceasta este o îmbunătățire majoră față de modelele existente text-to-image, care poate dura minute sau chiar ore pentru a genera o singură imagine.

Noul model text-to-image GigaGAN poate genera imagini 4K la 3.66 s

GigaGAN se bazează pe cadrul GAN ​​(generative adversarial network), care este un tip de rețea neuronală care poate învăța să genereze date similare cu un set de date de antrenament. GAN-urile au fost folosite pentru a genera imagini realiste ale fețelor, peisajelor și chiar imaginilor Street View.

Citeşte mai mult: Cele mai anticipate 5 modele AI text-to-image din 2023

Noul model a fost antrenat pe un set de date de 1 miliard de imagini, care este cu ordine de mărime mai mare decât seturile de date folosite pentru a antrena modele anterioare text-to-image. Ca rezultat, GigaGAN este capabil să genereze imagini de 512 pixeli la 0.13 secunde, ceea ce este de peste 10 ori mai rapid decât modelul anterior de ultimă generație text-to-image.

În plus, GigaGAN vine cu un spațiu latent dezlegat, continuu și controlabil. Aceasta înseamnă că GigaGAN poate genera imagini care au o varietate de stiluri diferite și că imaginile generate pot fi controlate într-o oarecare măsură. De exemplu, GigaGAN poate genera imagini care păstrează aspectul introducerii textului, ceea ce este important pentru aplicații, de exemplu, atunci când generează imagini cu aspectul produselor din descrierile de text.

GigaGAN poate fi, de asemenea, folosit pentru a antrena un eșantionare eficient, de calitate superioară. Acest lucru poate fi aplicat imaginilor reale sau ieșirilor altora modele text-to-image.

O ramură de codificare a textului, o rețea de cartografiere a stilurilor, o rețea de sinteză multi-scală și o atenție stabilă și o selecție adaptivă a nucleului fac toate parte din generatorul GigaGAN. Dezvoltatorii încep ramura de codificare a textului prin extragerea înglobărilor de text cu un model CLIP pre-antrenat și straturi de atenție învățate T. În mod similar StyleGAN, încorporarea este transmisă rețelei de mapare a stilurilor M, care generează vectorul de stil w. Pentru a genera o piramidă de imagine, rețeaua de sinteză folosește acum codul de stil ca modulare și încorporarea textului ca atenție. În plus, dezvoltatorii introduc selecția nucleului adaptiv la eșantion pentru a selecta nucleele de convoluție în mod adaptiv pe baza condiționării textului de intrare.

Discriminatorul, ca și generatorul, are două ramuri pentru prelucrarea imaginii și condiționarea textului. Ramura text, ca și generatorul, procesează textul. Ramura imaginii primește o piramidă de imagine și are sarcina de a face predicții independente pentru fiecare scară de imagine. Mai mult, predicțiile sunt făcute la toate scările ulterioare ale stratului de eșantionare. Pierderile suplimentare sunt, de asemenea, utilizate pentru a încuraja convergența efectivă.

După cum se arată în grila de interpolare, GigaGAN permite o interpolare lină între solicitări. Cele patru colțuri sunt create folosind același z latent, dar mesaje text diferite.

Deoarece GigaGAN păstrează un spațiu latent dezlegat, dezvoltatorii pot combina stilul grosier al unui eșantion cu stilul fin al altuia. De asemenea, GigaGAN poate controla stilul direct cu solicitări text.

Citiți mai multe articole conexe:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe

Fondatorii portofelului Samourai sunt acuzați că au facilitat 2 miliarde de dolari în oferte Darknet

Reținerea fondatorilor Samourai Wallet reprezintă un regres notabil pentru industrie, subliniind persistenta...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Pantera Capital investește în TON Blockchain și își exprimă încrederea în potențialul Telegram de a extinde accesibilitatea criptografică
Afaceri Buletin de stiri Tehnologia
Pantera Capital investește în TON Blockchain și își exprimă încrederea în potențialul Telegram de a extinde accesibilitatea criptografică
2 Mai, 2024
Mitosis strânge finanțare de 7 milioane USD de la Amber Group și Foresight Ventures pentru a-și avansa protocolul modular de lichiditate
Afaceri Buletin de stiri Tehnologia
Mitosis strânge finanțare de 7 milioane USD de la Amber Group și Foresight Ventures pentru a-și avansa protocolul modular de lichiditate
2 Mai, 2024
Galxe se asociază cu Jambo pentru a extinde accesibilitatea globală la Web3
Afaceri Buletin de stiri Tehnologia
Galxe se asociază cu Jambo pentru a extinde accesibilitatea globală la Web3
2 Mai, 2024
Membrul Consiliului Legislativ din Hong Kong, Wu Jiezhuang, a semnalat o acțiune civilă împotriva schimbului criptografic JPEX
Afaceri Buletin de stiri Tehnologia
Membrul Consiliului Legislativ din Hong Kong, Wu Jiezhuang, a semnalat o acțiune civilă împotriva schimbului criptografic JPEX
2 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.