Gennaio 24, 2023

GLIGEN: nuovo modello di generazione testo-immagine congelato con riquadro di delimitazione

Pubblicato: 24 gennaio 2023 alle 5:00 Aggiornato: 21 marzo 2024 alle 11:40

Modificato e verificato: 24 gennaio 2023 alle 5:00

In Breve

GLIGEN, o Grounded-Language-to-Image Generation, è una nuova tecnica che si basa ed estende la capacità degli attuali modelli di diffusione pre-addestrati.

Con gli input di condizione di didascalia e riquadro di delimitazione, il modello GLIGEN genera text2img open-world con messa a terra.

GLIGEN può generare una varietà di oggetti in luoghi e stili specifici sfruttando la conoscenza di un modello text2img preaddestrato.

GLIGEN può anche radicare i punti chiave umani durante la generazione di testo in immagini.

I modelli di diffusione da testo a immagine su larga scala hanno fatto molta strada. Tuttavia, la pratica corrente consiste nell'affidarsi esclusivamente all'input di testo, che può limitare la controllabilità. GLIGEN, o Grounded-Language-to-Image Generation, è una nuova tecnica che si basa ed estende la capacità degli attuali modelli di diffusione testo-immagine pre-addestrati consentendo loro di essere condizionati dagli input di messa a terra.

GLIGEN: nuovo modello di generazione testo-immagine congelato con riquadro di delimitazione

Per mantenere l'ampia conoscenza concettuale del modello pre-addestrato, gli sviluppatori congelano tutti i suoi pesi e pompano le informazioni di base in nuovi strati addestrabili tramite un processo controllato. Con la didascalia e gli input delle condizioni del riquadro di delimitazione, il modello GLIGEN genera testo-immagine radicato in un mondo aperto e l'abilità di messa a terra si generalizza efficacemente a nuove configurazioni e concetti spaziali.

Guarda la dimostrazione

GLIGEN si basa su modelli di diffusione pre-addestrati esistenti, i cui pesi originali sono stati congelati per conservare enormi quantità di conoscenza pre-addestrata.

GLIGEN si basa su pre-addestrati esistenti modelli di diffusione, i cui pesi originali sono stati congelati per conservare enormi quantità di conoscenza pre-addestrata.
In ogni blocco del trasformatore, viene creato un nuovo livello di auto-attenzione recintata addestrabile per assorbire ulteriori input di messa a terra.
Ogni token di messa a terra ha due tipi di informazioni: informazioni semantiche sulla cosa messa a terra (testo o immagine codificati) e informazioni sulla posizione spaziale (riquadro di delimitazione codificato o punti chiave).

Articolo correlato: VToonify: un modello AI in tempo reale per la generazione di video di ritratti artistici

I livelli modulati appena aggiunti vengono continuamente pre-addestrati su enormi dati di messa a terra (image-text-box), che è più conveniente rispetto ai metodi alternativi di utilizzo di un modello di diffusione pre-addestrato, come la messa a punto del modello completo. Simile a Lego, diversi livelli addestrati possono essere collegati e scollegati per consentire varie nuove funzionalità. — I livelli modulati appena aggiunti vengono continuamente pre-addestrati su enormi dati di messa a terra (casella di testo immagine). Questo è più conveniente rispetto ai metodi alternativi di utilizzo di un pre-addestrato modello di diffusione, come la messa a punto dell'intero modello. Similmente a Lego, è possibile collegare e scollegare diversi livelli addestrati per consentire varie nuove funzionalità.

GLIGEN supporta il campionamento programmato nel processo di diffusione per l'inferenza, in cui il modello può scegliere dinamicamente di utilizzare i token di messa a terra (aggiungendo il nuovo livello) o il modello di diffusione originale con un buon precedente (escludendo il nuovo livello), e quindi bilanciare la qualità della generazione e capacità di messa a terra.

GLIGEN può generare una varietà di oggetti in luoghi e stili specifici sfruttando la conoscenza di un modello text2img preaddestrato.

Articolo correlato: Microsoft ha rilasciato un modello di diffusione in grado di costruire un avatar 3D da una singola foto di una persona

GLIGEN può anche essere addestrato utilizzando immagini di riferimento. La riga superiore suggerisce che le fotografie di riferimento, oltre alle descrizioni scritte, possono fornire caratteristiche più dettagliate come lo stile e la forma dell'auto. La seconda riga dimostra che un'immagine di riferimento può essere utilizzata anche come immagine di stile, nel qual caso scopriamo che è sufficiente fissarla in un angolo o bordo di un'immagine.

GLIGEN, come altri modelli di diffusione, può eseguire il grounding image inpaint, che può generare oggetti che corrispondono strettamente ai bounding box forniti.

GLIGEN può anche radicare i punti chiave umani durante la generazione di testo in immagini. — GLIGEN può anche mettere a terra i punti chiave umani mentre generazione di testo in immagini.

Per saperne di più sull'intelligenza artificiale:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov