Google overwint meta door de lancering van een nieuwe tekst-naar-video AI-generator, Imagen Video
In het kort
Google's Imagen Video probeert video-generator te helpen veranderen in geweldige apps
Het duurde niet lang voordat Google reageerde op Make-a-Video van Meta. Door een tekstprompt te gebruiken, Afbeeldingsvideo kan een fantastische video opleveren. De resultaten zijn een enorme vooruitgang ten opzichte van de stand van de techniek, ondanks een aantal nadelen.
In vergelijking met de Text-to-Video AI-generator van Facebook Maak een video, zijn de resultaten merkbaar beter. Deze strategie vroeg echter ook om meer overzicht. In tegenstelling tot Imagen Video, waar de microwerkers hard werkten om films te annoteren met geschreven beschrijvingen, gebruikte Make-a-Scene niet-gelabelde video's voor training.
Ingaan op de details van de architectuur is zinloos; je zou erover moeten lezen in het artikel hier. We kunnen alleen bevestigen dat er eerst 16 frames worden gegenereerd uit de tekstinbedding van de T5-encoder met een resolutie van 48×24 met 3 frames per seconde, en dat dit vervolgens wordt opgeschaald door een aantal diffusiemodellen tot de uiteindelijke film van 128 frames bij 1280 × 768 en 24 frames per seconde.
Wat is Imagen Video?
Imagen Video is een methode voor het maken van tekstvoorwaardelijke video's op basis van een reeks videoverspreidingsmodellen. Imagen Video produceert films van hoge kwaliteit tekst prompts door een basisvideoproductiemodel te combineren met een reeks geïnterlinieerde ruimtelijke en temporele video-superresolutiemodellen. Bespreek de ontwerpkeuzes die het team heeft gemaakt tijdens het opschalen van het systeem als een high-definititie tekst-naar-video-model, inclusief de beslissing om diffusiemodellen te v-parametriseren en de selectie van volledig convolutionele temporele en ruimtelijke superresolutiemodellen bij specifieke resoluties. Bovendien valideert en past het resultaten van eerder werk over op diffusie gebaseerde beeldproductie toe op de context van video generatie. Videomodellen worden vervolgens onderworpen aan progressieve destillatie met classificatievrije begeleiding voor snelle, hoogwaardige bemonstering.
Het Google-onderzoeksteam beweert dat het systeem een tekstuele beschrijving accepteert en genereert een film met 16 frames met drie frames per seconde met een resolutie van 24 bij 48 pixels. Het systeem schaalt en "voorspelt" de extra frames, waardoor een uiteindelijke video ontstaat met 128 frames bij 24 frames per seconde en een resolutie van 720p (1280×768). Er zijn 60 miljoen beeld-tekstparen en 14 miljoen video-tekstparen werden gebruikt om Imagen Video te trainen.
Beeld videovoorbeelden in
Alleen al omdat het gebruik van AI om video te maken sneller en goedkoper is, dergelijke technologieën zullen ongetwijfeld overal worden toegepast.
Meer lezen? Hier zijn enkele aanvullende onderwerpen om te bekijken:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.