Des chercheurs du MIT et de Google présentent StableRep, un modèle d'IA pour renforcer la production d'images
En bref
Les informaticiens du MIT et de Google ont dévoilé StableRep, un modèle d'IA qui transforme les invites textuelles en images précises à l'aide de Stable Diffusion.
MIT et de Google des informaticiens ont dévoilé StableRep, un modèle d'IA conçu pour transformer des légendes écrites descriptives en images correspondantes précises à l'aide d'images générées par Stable Diffusion. Cet outil vise à améliorer la capacité des réseaux de neurones à générer des images basées sur des descriptions textuelles.
Selon les chercheurs, les images synthétiques peuvent aider les modèles d’IA à apprendre les représentations visuelles avec plus de précision que les photographies réelles.
StableRep vise à permettre aux chercheurs de gérer le processus algorithmique d'apprentissage automatique en entraînant un modèle sur une multitude d'images générées par Stable Diffusion en réponse à la même invite. Ainsi, le modèle apprendra une gamme plus large de représentations visuelles, defidéterminer quelles images correspondent étroitement aux invites données.
Les chercheurs envisagent l’émergence d’un écosystème de modèles d’IA, dont certains seront formés sur des données réelles ou synthétiques. Actuellement, les efforts se concentrent sur l’apprentissage du modèle pour en apprendre davantage sur les concepts de haut niveau grâce à la compréhension contextuelle et à la variabilité, au lieu de simplement lui fournir des données.
StableRep aidera les développeurs et les moteurs d'IA
Au cœur de modèles texte-image réside leur capacité à lier des objets avec des mots. Lorsqu'ils sont présentés avec une invite de saisie de texte, ces modèles doivent générer une image qui correspond étroitement à la description fournie. Pour y parvenir, ils doivent acquérir une compréhension des représentations visuelles d’objets du monde réel.
Selon un récent papier pré-imprimé sur arXiv, StableRep surpasse SimCLR et CLIP en termes de représentations apprises en utilisant le même ensemble d'invites textuelles et d'images réelles correspondantes sur des ensembles de données à grande échelle, en s'appuyant uniquement sur des images synthétiques.
L'article poursuit : « Lorsque nous introduisons davantage la supervision du langage, StableRep formé avec 20 millions d'images synthétiques atteint une meilleure précision que CLIP formé avec 50 millions d'images réelles. »
SimCLR et CLIP sont des algorithmes d'apprentissage automatique utilisés pour générer des images à partir d'invites textuelles.
Cette approche innovante permet aux développeurs d'IA de former des réseaux de neurones avec moins d'images synthétiques que d'images réelles tout en obtenant de meilleurs résultats. L'émergence de méthodes de type StableRep suggère un avenir dans lequel les modèles texte-image pourraient être formés principalement sur des données synthétiques, réduisant ainsi la dépendance à l'égard d'images réelles et prenant en charge les moteurs d'IA face aux limitations des ressources en ligne disponibles.
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Alisa, journaliste dévouée au MPost, se spécialise dans les crypto-monnaies, les preuves sans connaissance, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.
Plus d'articlesAlisa, journaliste dévouée au MPost, se spécialise dans les crypto-monnaies, les preuves sans connaissance, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.