Notizie
06 Novembre 2022

ERNIE-ViLG 2.0: il nuovo modello text-to-image di Baidu supera Dalle-2 e Stable Diffusion

In Breve

Sia Dalle-2 che Stable Diffusion sono stati significativamente superati da ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 è un modello text-to-image che offre prestazioni migliori rispetto a Dalle-2 e Stable Diffusion, due dei modelli di conversione da testo a immagine più popolari attualmente disponibili. Il nuovo modello è stato progettato e addestrato da un team di ricercatori di Baidu e i risultati sono mozzafiato.

Il nuovo modello text-to-image ERNIE-ViLG 2.0 supera Dalle-2 e Stable Diffusion
L'immagine creata da ERNIE-ViLG 2.0

I risultati hanno dimostrato che ERNIE-ViLG 2.0 ha superato in modo significativo Dalle-2 e Stable Diffusion. Questo è un risultato significativo e dimostra la potenza del framework ERNIE. IL Metaverse Post team ha confrontato ERNIE-ViLG 2.0 con Stable Diffusion sotto:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Questi risultati forniscono un forte supporto all'ipotesi che ERNIE-ViLG 2.0 sia più efficace sistema text-to-image rispetto a Dalle-2 e Stable Diffusion.

L'architettura Unet da Stable Diffusion è preso come base, ma con modifiche:

  • Una miscela di esperti di denoising: Esistono 10 reti neurali invece di una sola, ciascuna delle quali è responsabile solo di determinate fasi di diffusione.
  • Conoscenza testuale: Riponderazione automatica delle parole nella query in modo che le parole chiave abbiano più peso.
  • Conoscenza visiva: Durante l'addestramento, sono stati rilevati oggetti sui risultati di generazione intermedia e il peso della funzione di perdita sulle regioni con oggetti è stato aumentato.

Di conseguenza, il più grande del mondo modello testo-immagine è uscito con 24 miliardi di parametri (10 volte più grandi di SD) per addestrare il modello.

Rispetto ai modelli precedenti, ERNIE-ViLG 2.0 li supera notevolmente in termini di qualità dell'immagine e corrispondenza immagine-testo se testato simultaneamente sul bilingue ViLG-300 pronto impostato da una persona.

I prompt vengono semplicemente tradotti automaticamente dal cinese all'inglese nel file abbracciare il viso demo pubblica prima di essere inviata all'IA. Molte funzionalità derivano da questo.

  • ERNIE non conosce personaggi pubblici internazionali. Ad esempio, ERNIE non conosce Arnold Schwarzenegger. Certamente ha favoriti locali in Cina.
  • Di conseguenza, il metodo di utilizzo dei nomi di celebrità nei suggerimenti aumenta notevolmente la qualità di facce non riesce.
  • Puoi aspettarti qualche distorsione a causa della traduzione dal cinese, quindi potrebbero esserci delle sorprese in serbo per te se non parli cinese.
  • Non sa nemmeno niente di Greg Rutkowski.

Leggi articoli correlati:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
Affari Notizie Tecnologia
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
3 Maggio 2024
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
Mercati Notizie Tecnologia
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
3 Maggio 2024
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
Mercati Notizie Tecnologia
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
3 Maggio 2024
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
Affari Notizie Tecnologia
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
3 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.