GLIGEN: nuovo modello di generazione testo-immagine congelato con riquadro di delimitazione
In Breve
GLIGEN, o Grounded-Language-to-Image Generation, è una nuova tecnica che si basa ed estende la capacità degli attuali modelli di diffusione pre-addestrati.
Con gli input di condizione di didascalia e riquadro di delimitazione, il modello GLIGEN genera text2img open-world con messa a terra.
GLIGEN può generare una varietà di oggetti in luoghi e stili specifici sfruttando la conoscenza di un modello text2img preaddestrato.
GLIGEN può anche radicare i punti chiave umani durante la generazione di testo in immagini.
I modelli di diffusione da testo a immagine su larga scala hanno fatto molta strada. Tuttavia, la pratica corrente consiste nell'affidarsi esclusivamente all'input di testo, che può limitare la controllabilità. GLIGEN, o Grounded-Language-to-Image Generation, è una nuova tecnica che si basa ed estende la capacità degli attuali modelli di diffusione testo-immagine pre-addestrati consentendo loro di essere condizionati dagli input di messa a terra.
Per mantenere l'ampia conoscenza concettuale del modello pre-addestrato, gli sviluppatori congelano tutti i suoi pesi e pompano le informazioni di base in nuovi strati addestrabili tramite un processo controllato. Con la didascalia e gli input delle condizioni del riquadro di delimitazione, il modello GLIGEN genera testo-immagine radicato in un mondo aperto e l'abilità di messa a terra si generalizza efficacemente a nuove configurazioni e concetti spaziali.
Guarda la dimostrazione
- GLIGEN si basa su pre-addestrati esistenti modelli di diffusione, i cui pesi originali sono stati congelati per conservare enormi quantità di conoscenza pre-addestrata.
- In ogni blocco del trasformatore, viene creato un nuovo livello di auto-attenzione recintata addestrabile per assorbire ulteriori input di messa a terra.
- Ogni token di messa a terra ha due tipi di informazioni: informazioni semantiche sulla cosa messa a terra (testo o immagine codificati) e informazioni sulla posizione spaziale (riquadro di delimitazione codificato o punti chiave).
Articolo correlato: VToonify: un modello AI in tempo reale per la generazione di video di ritratti artistici |
Articolo correlato: Microsoft ha rilasciato un modello di diffusione in grado di costruire un avatar 3D da una singola foto di una persona |
Per saperne di più sull'intelligenza artificiale:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.