Rapport de nouvelles
20 mars 2023

Le nouveau modèle de synthèse texte-image GigaGAN peut générer des images 4K en 3.66 secondes

En bref

Les chercheurs ont développé un nouveau modèle texte-image appelé GigaGAN qui peut générer des images 4K en 3.66 secondes.

Il est basé sur le cadre GAN (generative adversarial network), qui est un type de Réseau neuronal qui peut apprendre à générer des données similaires à un jeu de données d'apprentissage. GigaGAN est capable de générer des images de 512 pixels à 0.13 seconde, 10 fois plus rapidement que le modèle de pointe précédent, et dispose d'un espace latent démêlé, continu et contrôlable.

Il peut également être utilisé pour former un suréchantillonneur efficace et de meilleure qualité.

Des chercheurs ont développé un nouveau modèle texte-image appelé GigaGAN qui peut générer Images 4K en 3.66 secondes. Il s'agit d'une amélioration majeure par rapport aux modèles texte-image existants, qui peuvent prendre des minutes, voire des heures, pour générer une seule image.

Le nouveau modèle de texte à image GigaGAN peut générer des images 4K à 3.66 s

GigaGAN est basé sur le cadre GAN (réseau antagoniste génératif), qui est un type de réseau neuronal qui peut apprendre à générer des données similaires à un ensemble de données d'entraînement. Les GAN ont été utilisés pour générer des images réalistes de visages, de paysages et même d'images Street View.

Lire la suite: 5+ modèles d'IA texte-image les plus attendus de 2023

Le nouveau modèle a été formé sur un ensemble de données d'un milliard d'images, soit des ordres de grandeur plus grands que les ensembles de données utilisés pour former les modèles texte-image antérieurs. En conséquence, GigaGAN est capable de générer des images de 1 pixels à 512 seconde, ce qui est plus de 0.13 fois plus rapide que le précédent modèle de synthèse texte-image à la pointe de la technologie.

De plus, GigaGAN est livré avec un espace latent démêlé, continu et contrôlable. Cela signifie que GigaGAN peut générer des images qui ont une variété de styles différents, et que les images générées peuvent être contrôlées dans une certaine mesure. Par exemple, GigaGAN peut générer des images qui préservent la mise en page de la saisie de texte, ce qui est important pour les applications, par exemple, lors de la génération d'images de mises en page de produits à partir de descriptions textuelles.

GigaGAN peut également être utilisé pour former un suréchantillonneur efficace et de meilleure qualité. Ceci peut être appliqué à des images réelles ou à des sorties d'autres modèles texte-image.

Une branche d'encodage de texte, un réseau de mappage de style, un réseau de synthèse multi-échelle, une attention stable et une sélection adaptative du noyau font tous partie du générateur GigaGAN. Les développeurs commencent la branche d'encodage de texte en extrayant des intégrations de texte avec un modèle CLIP pré-formé et des couches d'attention apprises T. StyleGAN, l'intégration est transmise au réseau de mappage de style M, qui génère le vecteur de style w. Pour générer une pyramide d'images, le réseau de synthèse utilise désormais le code de style comme modulation et les plongements de texte comme attention. De plus, les développeurs introduisent la sélection de noyau adaptative à l'échantillon pour sélectionner les noyaux de convolution de manière adaptative en fonction du conditionnement du texte d'entrée.

Le discriminateur, comme le générateur, possède deux branches pour le traitement de l'image et le conditionnement du texte. La branche de texte, comme le générateur, traite le texte. La branche image reçoit une pyramide d'image et est chargée de faire des prédictions indépendantes pour chaque échelle d'image. De plus, des prédictions sont faites à toutes les échelles de couche de sous-échantillonnage ultérieures. Des pertes supplémentaires sont également utilisées pour encourager une convergence efficace.

Comme indiqué dans la grille d'interpolation, GigaGAN permet une interpolation fluide entre les invites. Les quatre coins sont créés en utilisant le même z latent mais des invites de texte différentes.

Parce que GigaGAN préserve un espace latent désenchevêtré, les développeurs peuvent combiner le style grossier d'un échantillon avec le style fin d'un autre. GigaGAN peut également contrôler le style directement avec des invites de texte.

Lire plus d'articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus

Les fondateurs de Samourai Wallet accusés d'avoir facilité 2 milliards de dollars de transactions sur le Darknet

L'appréhension des fondateurs de Samourai Wallet représente un revers notable pour l'industrie, soulignant la persistance...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Pantera Capital investit dans la blockchain TON et exprime sa confiance dans le potentiel de Telegram pour élargir l'accessibilité de la cryptographie
La Brochure Rapport de nouvelles Technologie
Pantera Capital investit dans la blockchain TON et exprime sa confiance dans le potentiel de Telegram pour élargir l'accessibilité de la cryptographie
2 mai 2024
Mitosis lève 7 millions de dollars auprès d'Amber Group et de Foresight Ventures pour faire progresser son protocole de liquidité modulaire
La Brochure Rapport de nouvelles Technologie
Mitosis lève 7 millions de dollars auprès d'Amber Group et de Foresight Ventures pour faire progresser son protocole de liquidité modulaire
2 mai 2024
Galxe s'associe à Jambo pour étendre l'accessibilité mondiale à Web3
La Brochure Rapport de nouvelles Technologie
Galxe s'associe à Jambo pour étendre l'accessibilité mondiale à Web3
2 mai 2024
Wu Jiezhuang, membre du Conseil législatif de Hong Kong, engage une action civile contre JPEX Crypto Exchange
La Brochure Rapport de nouvelles Technologie
Wu Jiezhuang, membre du Conseil législatif de Hong Kong, engage une action civile contre JPEX Crypto Exchange
2 mai 2024
CRYPTOMERIA LABS PTE. LTD.