Nachrichtenbericht
06. Oktober 2022

Google überwindet Meta durch die Einführung eines neuen Text-zu-Video-KI-Generators, Imagen Video 

In Kürze

Googles Imagen Video versucht, Videogeneratoren dabei zu helfen, sich in Killer-Apps zu verwandeln

Es dauerte nicht lange, bis Google auf Make-a-Video from Meta reagierte. Durch die Verwendung einer Textaufforderung, Bildvideo kann ein fantastisches Video produzieren. Die Ergebnisse sind trotz einiger Nachteile ein enormer Fortschritt gegenüber dem Stand der Technik.

Im Vergleich zum Text-to-Video-KI-Generator von Facebook Mach ein Video, sind die Ergebnisse deutlich besser. Diese Strategie erforderte jedoch auch mehr Aufsicht. Im Gegensatz zu Imagen Video, wo die Mikroarbeiter hart daran arbeiteten, Filme mit schriftlichen Beschreibungen zu kommentieren, verwendete Make-a-Scene unbeschriftete Videos für das Training.

Es ist sinnlos, auf die Besonderheiten der Architektur einzugehen; Sie sollten darüber in dem Artikel lesen hier. Wir können nur bestätigen, dass aus der Texteinbettung des T16-Encoders bei einer Auflösung von 5×48 mit 24 Bildern pro Sekunde zunächst 3 Frames generiert werden, die dann durch etliche Diffusionsmodelle in den fertigen Film von 128 Frames hochskaliert werden bei 1280×768 und 24 Bildern pro Sekunde.

Was ist Imagen-Video?

Imagen Video ist eine Methode zum Erstellen textbedingter Videos basierend auf einer Reihe von Videodiffusionsmodellen. Imagen Video produziert hochwertige Filme aus Textaufforderungen durch die Kombination eines Basisvideoproduktionsmodells mit einer Reihe interlaceder räumlicher und zeitlicher Videomodelle mit Superauflösung. Gehen Sie die Designentscheidungen durch, die das Team bei der Skalierung des Systems als High-End-Lösung getroffen hat.definition des Text-zu-Video-Modells, einschließlich der Entscheidung zur V-Parametrisierung von Diffusionsmodellen und der Auswahl vollständig faltender zeitlicher und räumlicher Superauflösungsmodelle bei bestimmten Auflösungen. Darüber hinaus werden Ergebnisse früherer Arbeiten zur diffusionsbasierten Bildproduktion validiert und auf den Kontext von angewendet Videogenerierung. Anschließend werden die Videomodelle einer progressiven Destillation mit klassifikatorfreier Führung unterzogen, um eine schnelle und qualitativ hochwertige Probenahme zu ermöglichen.

Das Google-Forschungsteam behauptet, dass das System eine Textbeschreibung akzeptiert und erzeugt einen Film mit 16 Bildern mit drei Bildern pro Sekunde bei einer Auflösung von 24 mal 48 Pixel. Das System skaliert und „prognostiziert“ die zusätzlichen Frames und erstellt ein endgültiges Video mit 128 Frames bei 24 Frames pro Sekunde und einer Auflösung von 720p (1280×768). Es gibt 60 Millionen Bild-Text-Paare und 14 Millionen Video-Text-Paare wurden verwendet, um Imagen Video zu trainieren.

Imagen Videobeispiele

Auch wenn die Verwendung von KI zur Erstellung von Videos nur schneller und kostengünstiger ist, werden solche Technologien zweifellos überall eingesetzt.

Möchten Sie mehr lesen? Hier sind einige zusätzliche Themen, die Sie sich ansehen sollten:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Der DOGE-Raserei: Analyse des jüngsten Wertanstiegs von Dogecoin (DOGE).

Die Kryptowährungsbranche wächst rasant und Meme-Coins bereiten sich auf einen deutlichen Aufschwung vor. Dogecoin (DOGE), ...

Weitere Informationen

Die Entwicklung KI-generierter Inhalte im Metaversum

Das Aufkommen generativer KI-Inhalte ist eine der faszinierendsten Entwicklungen in der virtuellen Umgebung ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Die Top-Angebote dieser Woche, große Investitionen in KI, IT, Web3, und Krypto (22-26.04)
Digest Geschäft Märkte Technologie
Die Top-Angebote dieser Woche, große Investitionen in KI, IT, Web3, und Krypto (22-26.04)
26. April 2024
Vitalik Buterin kommentiert die Zentralisierung von PoW und stellt fest, dass es sich bis zum PoS um eine vorübergehende Phase handelte
Nachrichtenbericht Technologie
Vitalik Buterin kommentiert die Zentralisierung von PoW und stellt fest, dass es sich bis zum PoS um eine vorübergehende Phase handelte
26. April 2024
Offchain Labs enthüllt die Entdeckung zweier kritischer Schwachstellen in den Betrugsnachweisen des OP-Stacks von Optimism
Nachrichtenbericht Software Technologie
Offchain Labs enthüllt die Entdeckung zweier kritischer Schwachstellen in den Betrugsnachweisen des OP-Stacks von Optimism
26. April 2024
Dymensions offener Markt zur Überbrückung der Liquidität von RollApps eIBC startet im Mainnet
Nachrichtenbericht Technologie
Dymensions offener Markt zur Überbrückung der Liquidität von RollApps eIBC startet im Mainnet 
26. April 2024