Notizie Tecnologia
17 Novembre 2022

Nvidia ha annunciato eDiff-I: nuova IA generativa per la sintesi di testo e immagini con trasferimento istantaneo di stili

In Breve

Nvidia lancia eDiff-I per aiutare le aziende a creare immagini accattivanti e di alta qualità

La tecnica eDiff-I produce regolarmente una maggiore qualità di sintesi rispetto a DALL-E2 e Stable diffusion

eDiff-I è un nuovo strumento di creazione di contenuti AI che fornisce capacità di sintesi testo-immagine senza precedenti per operatori di marketing e aziende, come recentemente annunciato da Nvidia. Con eDiff-I, le aziende possono creare rapidamente e facilmente immagini accattivanti e di alta qualità senza la necessità di attrezzature costose o assistenza professionale. eDiff-I utilizza l'elaborazione del linguaggio naturale (NLP) per interpretare l'input dell'utente e generare immagini corrispondenti. L'IA analizza quindi le immagini e sceglie quella più adatta in base al contesto. Il risultato è un'immagine di alta qualità e dall'aspetto professionale che può essere utilizzata per una varietà di scopi, come materiali di marketing, post sui social media, campagne e-mail e altro ancora.

eDiff-I è un file IA generativa di nuova generazione strumento di creazione di contenuti che fornisce senza precedenti da testo a immagine sintesi, trasferimento rapido dello stile e pittura intuitiva con le parole. Come modello di diffusione per la creazione di elementi visivi dal testo, eDiff-I suggerisce di addestrare un insieme di reti di denoising esperte, ciascuna specializzata per un particolare intervallo di rumore, in risposta alla scoperta empirica che il comportamento dei modelli di diffusione varia nelle diverse fasi del campionamento.

Nvidia ha annunciato eDiff-I: nuova IA generativa per la sintesi di testo e immagini con trasferimento istantaneo di stili

Gli incorporamenti di testo T5, gli incorporamenti di immagini CLIP e gli incorporamenti di testo CLIP forniscono la base per il concetto eDiff-I. Questa metodologia può produrre grafici fotorealistici in risposta a qualsiasi query di testo.

Presenta due funzionalità aggiuntive oltre alla sintesi da testo a immagine: (1) trasferimento di stile, che ci consente di controllare lo stile del campione generato utilizzando un'immagine di stile di riferimento, e (2) "Paint with Words", uno strumento che consente agli utenti di creare immagini dipingendo mappe di segmentazione su tela.

Conduttura
Conduttura

La pipeline è costituita da una cascata di tre modelli di diffusione: un modello base che può creare campioni con una risoluzione di 64×64 e due stack a super risoluzione che possono gradualmente sovracampionare le immagini alle risoluzioni di 256×256 e 1024×1024, rispettivamente. I modelli calcolano T5 XXL e l'incorporamento del testo dopo aver ricevuto una didascalia come input. Questi incorporamenti di immagini possono essere utilizzati come vettore di stile. Quindi, inserisci questi incorporamenti nel nostro sistema a cascata modelli di diffusione, che producono gradualmente immagini con una risoluzione di 1024 x 1024.

L'approccio eDiff-I si traduce costantemente in una migliore qualità di sintesi rispetto agli algoritmi open-source text-to-image (Stable diffusion) e (DALL-E2).

Risultati
Risultati

Quando vengono utilizzati gli incorporamenti di immagini CLIP, l'approccio eDiff-I facilita il trasferimento dello stile. eDiff-I prima estrae il file CLIP incorporamenti di immagini da un'immagine di stile di riferimento, che può essere utilizzata come vettore di riferimento di stile. Un riferimento stilistico può essere visto nel pannello di sinistra della figura sottostante. I risultati quando il condizionamento dello stile è attivato vengono visualizzati nel pannello centrale. I risultati quando il condizionamento dello stile è disattivato vengono visualizzati nel pannello a destra. Quando viene applicato il condizionamento dello stile, il modello eDiff-I crea output che sono fedeli anche allo stile della didascalia di input. Quando il condizionamento dello stile è disattivato, vengono prodotte foto dall'aspetto naturale.

Trasferimento di stile
Trasferimento di stile

Scegliendo le frasi e scarabocchiandole sull'immagine, gli utenti del metodo eDiff-I possono modificare la posizione delle cose elencate nel prompt di testo. Successivamente, il modello utilizza il file prompt e le mappe per creare immagini compatibili sia con la didascalia che con la mappa di input.

Leggi articoli correlati:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più

I fondatori di Samourai Wallet sono accusati di aver facilitato 2 miliardi di dollari in affari nel Darknet

L'apprensione dei fondatori di Samourai Wallet rappresenta una notevole battuta d'arresto per il settore, sottolineando la persistente ...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Pantera Capital investe in TON Blockchain ed esprime fiducia nel potenziale di Telegram di ampliare l'accessibilità alle criptovalute
Affari Notizie Tecnologia
Pantera Capital investe in TON Blockchain ed esprime fiducia nel potenziale di Telegram di ampliare l'accessibilità alle criptovalute
2 Maggio 2024
Mitosis raccoglie 7 milioni di dollari in finanziamenti da Amber Group e Foresight Ventures per portare avanti il ​​suo protocollo di liquidità modulare
Affari Notizie Tecnologia
Mitosis raccoglie 7 milioni di dollari in finanziamenti da Amber Group e Foresight Ventures per portare avanti il ​​suo protocollo di liquidità modulare
2 Maggio 2024
Galxe collabora con Jambo per espandere l'accessibilità globale a Web3
Affari Notizie Tecnologia
Galxe collabora con Jambo per espandere l'accessibilità globale a Web3
2 Maggio 2024
Med-Gemini di Google è pronto a dare un vantaggio GPT-4 Con le sue prestazioni superiori nel settore sanitario
AI Wiki Notizie Software Tecnologia
Med-Gemini di Google è pronto a dare un vantaggio GPT-4 Con le sue prestazioni superiori nel settore sanitario
2 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.