Modèle d'IA texte-image
Qu'est-ce que le modèle d'IA texte-image ?
Un modèle texte-image est un type de machine learning modèle qui génère une image qui correspond à une description en langage naturel fournie en entrée. Les modèles texte-image se composent généralement de deux composants : un modèle d'image génératif qui crée une image conditionnée par le texte saisi et un modèle de langage qui convertit le texte en une représentation latente. De grands volumes de données textuelles et images récupérées sur Internet sont généralement utilisés pour former les algorithmes les plus efficaces.
Services Connexes: 5+ modèles d'IA texte-image les plus attendus de 2023 |
Compréhension du modèle d'IA texte-image
Des chercheurs de l'Université de Toronto ont publié alignDRAW, le premier modèle contemporain de conversion texte-image, en 2015. L'architecture DRAW introduite pour la première fois a été étendue par alignDRAW pour fournir un conditionnement de séquence de texte. Même si les images générées par alignDRAW manquaient de photoréalisme et étaient floues, le modèle a démontré qu'il était capable de faire plus que simplement « mémoriser » le contenu de l'ensemble de formation en étant capable de généraliser à des éléments qui n'étaient pas inclus dans l'ensemble de formation et de répondre correctement aux de nouveaux indices.
Les OpenAI Le système de transformation DALL-E a été l'un des premiers modèles de conversion texte-image à avoir suscité un grand intérêt du public. Il a été dévoilé en janvier 2021. En avril 2022, DALL-E 2, un remplaçant capable de produire des visuels plus complexes et plus réalistes, a été présenté. En août de la même année, Stable Diffusion a été mis à la disposition du public. Une démonstration plus approfondie de la « personnalisation » d'énormes modèles de base texte-image a eu lieu en août 2022. Avec la personnalisation texte-image, une nouvelle notion peut être enseignée au modèle avec un petit nombre de photos d'un article qui a été ne fait pas partie de l'ensemble de formation du modèle de base texte-image, ceci est réalisé par l'inversion textuelle.
Services Connexes: Meilleurs 100+ Stable Diffusion Invites : les plus belles invites texte-image de l'IA |
L'avenir du modèle d'IA texte-image
La communauté créative explose avec l’art de l’IA, ce qui nous pousse sur un terrain intellectuellement et artistiquement inexploré. Bien que ses aspects créatifs soient encore à l’étude, il a déjà commencé à modifier l’environnement de l’imagerie artistique. Les visuels humains intelligents, au-delà de tout ce que nous avons jamais vu sur un écran, sont déjà les bienvenus dans nos esprits. L’une des avancées les plus intéressantes est la création de texte en image, qui permet aux ordinateurs de produire des images en réponse à des commandes textuelles. Les artistes utilisent l’IA pour développer leur imagination au quotidien. Leurs intérêts résident davantage dans l'étude des technologies permettant de créer des villes imaginaires, de regarder des chiens danser dans une discothèque ou d'essayer de comprendre ce que l'avenir leur réserve.
Dernières nouvelles sur le modèle d'IA texte-image
- Midjourney 5.2 et Stable Diffusion SDXL 0.9 a publié des mises à jour importantes pour la génération d'images créatives. Midjourney 5.2 introduit le zoom arrière, des variations personnalisables et une transformation d'image 1:1. Il introduit également l'Outpainting, des variantes personnalisables et un analyseur d'invites pour optimiser les invites et les aligner sur les intentions des utilisateurs. Ces mises à jour améliorent l'expérience utilisateur et améliorent la précision de la génération d'images réalistes.
- SnapFusion est un modèle d'IA qui permet aux utilisateurs de créer des images époustouflantes à partir de descriptions en langage naturel en seulement deux secondes sur les appareils mobiles. Il élimine le besoin de GPU coûteux et de services basés sur le cloud, réduisant ainsi les coûts et répondant aux problèmes de confidentialité. L’efficacité et les performances du modèle ont été démontrées lors d’expériences sur l’ensemble de données MS-COCO.
- Les chercheurs ont développé GigaGAN, un modèle de conversion texte-image capable de générer des images 4K en 3.66 secondes, une amélioration significative par rapport aux modèles existants. GigaGAN est basé sur le framework GAN et formé sur un ensemble de données d'un milliard d'images, générant des images de 1 pixels à 512 seconde. Il dispose d'un espace latent démêlé, continu et contrôlable, permettant différents styles et contrôles d'image. Le modèle peut également former un suréchantillonneur efficace pour des images ou des sorties réelles.
Dernières publications sociales sur
«Retour à l'index du glossaireClause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Viktoriia est un écrivain sur une variété de sujets technologiques, notamment Web3.0, IA et crypto-monnaies. Sa vaste expérience lui permet d’écrire des articles perspicaces destinés à un public plus large.
Plus d'articlesViktoriia est un écrivain sur une variété de sujets technologiques, notamment Web3.0, IA et crypto-monnaies. Sa vaste expérience lui permet d’écrire des articles perspicaces destinés à un public plus large.