Rapport de nouvelles Technologie
Le 19 juin 2023

SnapFusion : modèle de conversion texte-image rapide pour les appareils mobiles en 1.9 seconde

En bref

SnapFusion modifie la création de contenu en exécutant modèles de diffusion texte-image directement sur les appareils mobiles, ce qui réduit les coûts et répond aux problèmes de confidentialité.

Snap Fusion est un modèle d'IA text-to-image qui permet aux utilisateurs de générer de superbes images à partir de descriptions en langage naturel, le tout en seulement deux secondes sur leurs appareils mobiles. Fini le temps où l'on s'appuyait sur des GPU haut de gamme ou des services basés sur le cloud pour exécuter ces modèles complexes. SnapFusion démocratise la création de contenu en mettant le pouvoir de la diffusion du texte à l'image entre les mains des utilisateurs.

SnapFusion : modèle de synthèse texte-image rapide et efficace pour les appareils mobiles en 1.9 seconde
Crédit: Midjourney / lili10292#2100

Créer des images réalistes à partir de descriptions textuelles a toujours été une tâche difficile. Modèles précédents grandes architectures de réseau requises et de multiples itérations de débruitage, les rendant coûteux en calcul et lent. De plus, l'exécution de ces modèles impliquait souvent l'envoi de données utilisateur à des services tiers, augmentant problèmes de confidentialité.

Pour relever ces défis, les créateurs de SnapFusion ont développé une architecture réseau efficace et amélioré le processus de distillation par étapes. En identifiant les redondances dans le modèle d'origine, ils ont introduit un UNet efficace et réduit le calcul du décodeur d'image grâce à distillation de données. De plus, ils ont amélioré la distillation par étapes en explorant des stratégies de formation et en introduisant des techniques de régularisation.

Arxiv.org/pdf/2306.00980.pdf

De vastes expériences sur le Jeu de données MS-COCO démontré la supériorité de SnapFusion. Avec seulement huit étapes de débruitage, SnapFusion a obtenu de meilleurs scores FID et CLIP par rapport au précédent modèle à la pointe de la technologie, Stable Diffusion v1.5, qui nécessitait 50 étapes. Cette amélioration remarquable de l'efficacité et des performances ouvre de nouvelles possibilités pour la création de contenu.

L'impact de SnapFusion va au-delà de ses réalisations techniques. En exécutant modèles de diffusion texte-image directement sur les appareils mobiles, il élimine le besoin de GPU coûteux et de services basés sur le cloud. Cela réduit non seulement les coûts, mais répond également aux problèmes de confidentialité associés à l'envoi de données utilisateur à des tiers. Les utilisateurs peuvent désormais laisser libre cours à leur créativité et générer des images de haute qualité lors de leurs déplacements.

La taille des paramètres du modèle peut être encore réduite pour le rendre compatible avec divers appareils de périphérie. En outre, l'optimisation du modèle pour différents appareils mobiles afin de obtenir une inférence rapide les vitesses est un sujet de recherche en cours.

Il est essentiel d'utiliser SnapFusion et des technologies similaires de manière responsable pour empêcher les applications malveillantes. Des mesures peuvent être prises, telles que des systèmes de détection automatique qui identifient et signalent le contenu des images qui enfreint la réglementation. En trouvant un équilibre entre l'innovation et les considérations éthiques, SnapFusion peut changer la création de contenu tout en garantissant une expérience utilisateur sûre et responsable.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
LD Capital, Antalpha Ventures et Highblock Limited unissent leurs forces pour lancer un fonds de liquidité ETF de Hong Kong de 128 millions de dollars
La Brochure Marchés Rapport de nouvelles
LD Capital, Antalpha Ventures et Highblock Limited unissent leurs forces pour lancer un fonds de liquidité ETF de Hong Kong de 128 millions de dollars
8 mai 2024
Inside Wall Street Memes (WSM) : dévoiler les gros titres
La Brochure Marchés Histoires et critiques Technologie
Inside Wall Street Memes (WSM) : dévoiler les gros titres
7 mai 2024
Découvrez les crypto-baleines : qui fait quoi sur le marché
La Brochure Marchés Histoires et critiques Technologie
Découvrez les crypto-baleines : qui fait quoi sur le marché
7 mai 2024
Orbiter Finance s'associe au réseau Bitcoin Layer 2 Zulu et se déploie sur Lwazi Testnet
La Brochure Rapport de nouvelles Technologie
Orbiter Finance s'associe au réseau Bitcoin Layer 2 Zulu et se déploie sur Lwazi Testnet 
7 mai 2024
CRYPTOMERIA LABS PTE. LTD.