Nvidia heeft eDiff-I aangekondigd: nieuwe generatieve AI voor tekst- en beeldsynthese met directe overdracht van stijlen
In het kort
Nvidia lanceert eDiff-I om bedrijven te helpen boeiende afbeeldingen van hoge kwaliteit te maken
De eDiff-I-techniek produceert regelmatig een hogere synthesekwaliteit dan DALL-E2 en Stable diffusion
eDiff-I is een nieuwe tool voor het maken van AI-content biedt ongekende tekst-naar-beeld-synthesemogelijkheden voor marketeers en bedrijven, zoals onlangs aangekondigd door Nvidia. Met eDiff-I kunnen bedrijven snel en eenvoudig aantrekkelijke beelden van hoge kwaliteit maken zonder dure apparatuur of professionele hulp. eDiff-I gebruikt natuurlijke taalverwerking (NLP) om de invoer van de gebruiker te interpreteren en bijbehorende afbeeldingen te genereren. De AI analyseert vervolgens de beelden en kiest op basis van de context de meest geschikte. Het resultaat is een hoogwaardige, professioneel ogende afbeelding die voor verschillende doeleinden kan worden gebruikt, zoals marketingmateriaal, posts op sociale media, e-mailcampagnes en meer.
eDiff-I is een generatieve AI van de volgende generatie tool voor het maken van inhoud die ongeëvenaard is tekst-naar-afbeelding synthese, snelle stijloverdracht en intuïtief schilderen met woorden. Als een diffusiemodel voor het maken van beeldmateriaal uit tekst, stelt eDiff-I voor om een ensemble van deskundige denoising-netwerken te trainen, elk gespecialiseerd voor een bepaald ruisinterval, als reactie op de empirische bevinding dat het gedrag van diffusiemodellen varieert in verschillende fasen van bemonstering.
De T5-tekstinsluitingen, CLIP-afbeeldingsinsluitingen en CLIP-tekstinsluitingen vormen de basis voor het eDiff-I-concept. Deze methode kan fotorealistische afbeeldingen produceren als antwoord op elke tekstvraag.
Naast de synthese van tekst naar afbeelding biedt het twee extra mogelijkheden: (1) stijloverdracht, waarmee we de stijl van het gegenereerde voorbeeld kunnen regelen met behulp van een referentiestijlafbeelding, en (2) "Paint with Words", een hulpmiddel waarmee gebruikers afbeeldingen kunnen maken door segmentatiekaarten op canvas te schilderen.
De pijplijn bestaat uit een cascade van drie diffusiemodellen: een basismodel dat samples kan maken met een resolutie van 64×64 en twee superresolutiestapels die de afbeeldingen geleidelijk kunnen opschalen naar resoluties van respectievelijk 256×256 en 1024×1024. Modellen berekenen T5 XXL en tekstinsluiting nadat ze een bijschrift als invoer hebben ontvangen. Deze afbeeldingsinsluitingen kunnen worden gebruikt als stijlvector. Voer deze inbedding vervolgens in onze cascadering in diffusiemodellen, die geleidelijk afbeeldingen produceren met een resolutie van 1024 x 1024.
De eDiff-I-benadering resulteert consistent in een betere synthesekwaliteit in vergelijking met de open-source tekst-naar-afbeelding-algoritmen (Stable diffusion) en (DALL-E2).
Wanneer de inbedding van CLIP-afbeeldingen wordt gebruikt, vergemakkelijkt de eDiff-I-benadering stijloverdracht. eDiff-I haalt eerst het CLIP afbeelding inbedding van een afbeelding in referentiestijl, die kan worden gebruikt als een stijlreferentievector. Een stilistische verwijzing is te zien in het linkerpaneel van de onderstaande afbeelding. De resultaten wanneer stijlconditionering is ingeschakeld, worden weergegeven in het middelste paneel. De resultaten wanneer stijlconditionering is uitgeschakeld, worden weergegeven in het paneel aan de rechterkant. Wanneer stijlconditionering wordt toegepast, creëert het eDiff-I-model uitvoer die ook trouw is aan de stijl van het invoeronderschrift. Wanneer stijlconditionering is uitgeschakeld, worden natuurlijk ogende foto's geproduceerd.
Door zinnen te kiezen en ze op de afbeelding te krabbelen, kunnen gebruikers van de eDiff-I-methode de plaatsing wijzigen van dingen die in de tekstprompt worden vermeld. Daarna gebruikt het model de prompt en de kaarten om afbeeldingen te maken die compatibel zijn met zowel het bijschrift als de invoerkaart.
Gerelateerde artikelen lezen:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.