Sber AI heeft Kandinsky 2.0 gepresenteerd, het eerste tekst-naar-beeld-model voor het genereren in meer dan 100 talen
In het kort
Kandinsky 2.0, het eerste meertalige verspreidingsmodel, is gemaakt en getraind door Sber AI-onderzoekers met de hulp van onderzoekers van het AI Institute of Artificial Intelligence met behulp van de gecombineerde dataset van 1 miljard tekst-beeldparen van Sber AI en SberDevices
Diffusie vervangt in toenemende mate GAN's en autoregressieve modellen in een aantal digitale beeldverwerkingstaken. Dit is niet verwonderlijk omdat diffusie gemakkelijker te leren is, geen complexe selectie van hyperparameters, min-max optimalisatie vereist en geen last heeft van leerinstabiliteit. En het allerbelangrijkste: diffusiemodellen laten state-of-the-art resultaten zien voor bijna alle generatieve taken: het genereren van afbeeldingen door tekst, het genereren van geluid, video en zelfs 3D.
Helaas richt het meeste werk op het gebied van tekst-naar-iets zich alleen op Engels en Chinees. Om dit onrecht te corrigeren, heeft Sber AI besloten om te creëren een meertalig tekst-naar-beeld-verspreidingsmodel Kandinsky 2.0, dat zoekopdrachten in meer dan 100 talen begrijpt. KnuffelenGezicht Kandinsky 2.0 biedt al aan. Onderzoekers van SberAI en SberDevices hebben samengewerkt met experts van het AI Institute of Artificial Intelligence over dit project.
Wat is diffusie?
In het artikel uit 2015 Deep Unsupervised Learning met behulp van niet-evenwichtsthermodynamica, werden diffusiemodellen voor het eerst beschreven als het mengen van een stof resulterend in diffusie, waardoor de verdeling gelijk wordt. Zoals de titel van het artikel aangeeft, benaderden ze de verklaring van diffusiemodellen vanuit het raamwerk van de thermodynamica.
In het geval van afbeeldingen kan een dergelijk proces er bijvoorbeeld uitzien als het geleidelijk verwijderen van Gaussiaanse ruis uit het beeld.
De papieren diffusiemodellen GAN's over beeldsynthese, gepubliceerd in 2021, waren de eerste die de superioriteit van diffusiemodellen ten opzichte van GANS aantoonden. De auteurs bedachten ook de controlebenadering van de eerste generatie (conditionering), die ze classifier guidance noemden. Deze methode maakt objecten die passen bij de beoogde klasse met behulp van verlopen van een andere classificator (bijvoorbeeld honden). Via het Adaptive Group Norm-mechanisme, waarbij normalisatiecoëfficiënten worden voorspeld, wordt de controle zelf uitgevoerd.
Dit artikel kan worden gezien als een keerpunt op het gebied van generatieve AI, waardoor velen zich wenden tot de studie van diffusie. Nieuwe artikelen over tekst-naar-video, tekst-naar-3Dafbeelding schilderen, audio generatie, diffusie voor superresolutie, en zelfs bewegingsgeneratie begon om de paar weken te verschijnen.
Verspreiding van tekst naar afbeelding
Zoals we eerder vermeldden, zijn ruisonderdrukking en ruiseliminatie typisch de belangrijkste componenten van diffusieprocessen in de context van beeldmodaliteiten, dus UNet en zijn vele variaties worden vaak gebruikt als de fundamentele architectuur.
Het is essentieel dat deze tekst tijdens de generatie op de een of andere manier in overweging wordt genomen om op basis daarvan een beeld te creëren. De auteurs van de OpenAI artikel over het GLIDE-model stelde voor om de classificatievrije begeleidingsbenadering voor tekst te wijzigen.
Het gebruik van bevroren voorbestraalde tekst-encoders en het cascade-resolutieverbeteringsmechanisme in de toekomst zullen de tekstproductie aanzienlijk verbeteren (Beeld). Het bleek dat het niet nodig was om het tekstgedeelte van te trainen tekst-naar-beeld modellen omdat het gebruik van de bevroren T5-xxl resulteerde in een aanzienlijk verbeterde beeldkwaliteit en tekstbegrip en veel minder trainingsbronnen gebruikte.
De auteurs van a Latente diffusie artikel toonde aan dat de afbeeldingscomponent eigenlijk geen training vereist (althans niet volledig). Het leren gaat zelfs nog sneller als we een krachtige beeld-auto-encoder (VQ-VAE of KL-VAE) als visuele decoder gebruiken en proberen inbeddingen te genereren vanuit de latente ruimte door middel van diffusie in plaats van het beeld zelf. Deze methodiek ligt ook aan de basis van de onlangs uitgebrachte Stable Diffusion model.
Kandinsky 2.0 AI-model
Met enkele belangrijke verbeteringen is Kandinsky 2.0 gebaseerd op een verbeterde Latent Diffusion-techniek (we maken geen afbeeldingen, maar hun latente vectoren):
- Twee meertalige tekstcoderingsprogramma's gebruikt en hun inbeddingen aaneengeschakeld.
- UNet toegevoegd (1.2 miljard parameters).
- Bemonsteringsprocedure dynamische drempels.
Onderzoekers gebruikten tegelijkertijd twee meertalige encoders - XLMR-clip en mT5-small - om de model echt meertalig. Daarom kan het model naast Engels, Russisch, Frans en Duits ook talen als Mongools, Hebreeuws en Farsi begrijpen. De AI kent in totaal 101 talen. Waarom is ervoor gekozen om tekst te coderen met twee modellen tegelijk? Aangezien XLMR-clip afbeeldingen heeft gezien en nauwe inbeddingen biedt voor verschillende talen, en mT5-small complexe teksten kan begrijpen, hebben deze modellen verschillende maar cruciale kenmerken. Aangezien beide modellen maar een klein aantal parameters hebben (560M en 146M), zoals blijkt uit onze voorbereidende tests, werd besloten om twee encoders tegelijkertijd te gebruiken.
Vers gegenereerde afbeeldingen door het Kandinsky 2.0 AI-model hieronder:
Hoe is de Kandinsky 2.0-modeltraining verlopen?
Christofari-supercomputers werden gebruikt voor de training op het ML Space-platform. Er waren 196 NVIDIA A100-kaarten voor nodig, elk met 80 GB RAM. Het duurde 14 dagen of 65,856 GPU-uren om de training te voltooien. De analyse duurde vijf dagen bij een resolutie van 256 × 256, gevolgd door zes dagen bij een resolutie van 512 × 512 en vervolgens drie dagen bij de zuiverste gegevens.
Als trainingsgegevens werden veel datasets gecombineerd die vooraf waren gefilterd op watermerken, lage resolutie en lage naleving van de tekstbeschrijving, zoals gemeten door de CLIP-score-metriek.
Meertalige generatie
Kandinsky 2.0 is het eerste meertalige model voor het maken van afbeeldingen van woorden, waardoor we voor het eerst taalkundige en visuele veranderingen in taalculturen kunnen beoordelen. De resultaten van het vertalen van dezelfde zoekopdracht in verschillende talen worden hieronder weergegeven. Zo verschijnen alleen blanke mannen in de generatieresultaten voor de Russische zoekopdracht 'een persoon met een hogere opleiding', terwijl de resultaten voor de Franse vertaling 'Photo d'une personne diplômée de l'enseignement supérieur' meer divers zijn. Ik zou erop willen wijzen dat de bedroefde mensen met een hogere opleiding alleen aanwezig zijn in de Russischtalige editie.
Hoewel er nog heel veel proeven zijn met enorme taalmodellen en verschillende methoden van het verspreidingsproces gepland, kunnen we nu al met vertrouwen stellen dat Kandinsky 2.0 het eerste volledig meertalige verspreidingsmodel is! Op de FusionBrain-website en Google Colab, kunt u voorbeelden van haar tekeningen zien.
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.