Nachrichtenbericht Technologie
29. Mai 2023

Google hat dem KI-Modell Flamingo beigebracht, Beschreibungen für YouTube-Videos zu schreiben

In Kürze

Flamingo löst das Problem, dass kurze Videos bei der Suche schwer zu finden sind, indem automatisch Beschreibungen erstellt werden.

Google DeepMind, das KI-Forschungslabor, hat entwickelt ein visuelles Sprachmodell namens Flamingo, das Beschreibungen für kurze Videos auf YouTube schreiben kann. Das Problem, das Flamingo angeht, besteht darin, dass kurze Videos aufgrund fehlender notwendiger Informationen in der Beschreibung oft über die Suche schwer zu finden sind. Das Flamingo-Modell löst dieses Problem, indem es automatisch Texte für Millionen von kurzen Videoclips auf Video-Hosting-Sites generiert, die „hinter den Kulissen“ verwendet werden, um eine einfache Suche zu ermöglichen. Obwohl die Videoautoren die Metadaten nicht sehen können, helfen sie den Zuschauern, die Kurzfilme zu finden und darin zu navigieren. Derzeit arbeitet Flamingo seit langem an neuen Clips und verarbeitet ältere, auf YouTube hochgeladene Videos.

Google hat dem KI-Modell Flamingo beigebracht, Beschreibungen für YouTube-Videos zu schreiben
deepmind.com

In der Vergangenheit hat Google einen Algorithmus eingeführt, der es Menschen ermöglicht, mithilfe der Suchleiste nach Informationen in Videos zu suchen. Kürzlich hat TwelveLabs 12 Millionen US-Dollar von Investoren für eine ähnliche Entwicklung eingesammelt. Diese Tools eröffnen neue Möglichkeiten für Videos Inhaltsentwickler um ihre Reichweite und Sichtbarkeit zu erhöhen. Durch den Einsatz von KI zur Verbesserung und Vereinfachung des Suchprozesses und der Entdeckung von Kurzinhalten revolutionieren DeepMind und ähnliche Startups die Videobranche Streaming services. Sie tragen zur Entwicklung intelligenterer und effizienterer Suchtechnologien bei und machen es für Zuschauer noch einfacher, Inhalte zu finden, die sie wirklich interessieren.

Künstliche Intelligenz spielt eine wichtige Rolle bei der Weiterentwicklung von Suchtechnologien. Durch die Nutzung von KI kann das Flamingo-Modell den Inhalt scannen und serialisieren sowie Texte generieren, die den Inhalt zusammenfassen, um Benutzern die Navigation zu erleichtern. Das Flamingo-Modell nutzt tiefe neuronale Netze, um Textbeschreibungen eines Videoclips basierend auf dem Audio- und visuellen Inhalt des Videos zu generieren. Es kann die akustischen und visuellen Komponenten von Kurzinhalten erfassen und sie in eine Zusammenfassung umwandeln, die für Benutzer leicht zu suchen und abzurufen ist.

Der Einsatz von KI kann dabei helfen, wichtige Informationen für die Benutzer zu identifizieren, die bei den manuellen Bemühungen der Ersteller beim Hinzufügen von Beschreibungen möglicherweise übersehen werden. Der zeitaufwändige Aufwand, jedes Detail manuell zu erfassen, ist nicht immer praktikabel, insbesondere angesichts der ständigen Flut an kurzen Videoinhalten, die auf Plattformen wie YouTube hochgeladen werden. Dies kann zu Verwirrung und Frustration bei den Benutzern führen, wenn sie nach bestimmten Kurzinhalten suchen. Durch die Verwendung visueller Sprachmodelle wie Flamingo können die Metadaten jedoch automatisch generiert werden, um eine Zusammenfassung für einen einfachen Zugriff bereitzustellen, wodurch Zeit gespart und der Suchprozess effizienter und genauer gestaltet wird.

Flamingo stellt neue hochmoderne visuelle Sprachmodelle für offene Aufgaben bereit

Die wichtigsten Details sind die Einführung von Flamingo, einem einzigen visuellen Sprachmodell (VLM), das einen neuen Stand der Technik im Wenig-Schuss-Lernen für ein breites Spektrum offener multimodaler Aufgaben darstellt. Flamingo ist ein einzelnes visuelles Sprachmodell (VLM), das redefines Wenige-Schüsse-Lernen über eine breite Palette offener multimodaler Aktivitäten. Es erhält eine Eingabeaufforderung bestehend aus verschachtelten Bildern, Videos und Text als Eingabe und gibt die zugehörige Sprache aus. Die visuelle und Textschnittstelle von Flamingo ähnelt denen großer Sprachmodelle (LLMs)kann das Modell zur Erreichung eines multimodalen Ziels führen. Dem Modell kann eine Frage mit einem neuen Bild oder Video gestellt werden und es kann dann anhand einiger Beispielpaare aus visuellen Eingaben und erwarteten Textantworten, die in Flamingos Eingabeaufforderung zusammengestellt wurden, eine Antwort konstruieren.

Flamingo ist ein visuelles Sprachmodell, das große Sprachmodelle mit leistungsstarken visuellen Darstellungen verbindet und auf einer Mischung komplementärer, groß angelegter multimodaler Daten trainiert wird, die ausschließlich aus dem Internet stammen, ohne für maschinelle Lernzwecke annotierte Daten zu verwenden. Mit nur vier Beispielen pro Aufgabe übertrifft es alle bisherigen Fear-Shot-Lernansätze und übertrifft Methoden, die für jede Aufgabe einzeln fein abgestimmt und optimiert werden und um mehrere Größenordnungen aufgabenspezifischere Daten verwenden. Es testete auch die qualitativen Fähigkeiten des Modells, die über seine aktuellen Benchmarks hinausgingen, wie etwa die Untertitelung von Bildern mit Bezug zu Geschlecht und Hautfarbe und die Ausführung der generierten Untertitel über die Perspective API von Google, die die Toxizität von Text bewertet. Flamingo ermöglicht eine effiziente spontane Anpassung an diese Beispiele und andere Aufgaben, ohne das Modell zu ändern, und demonstriert sofort einsatzbereite multimodale Dialogfunktionen.

Flamingo ist eine universelle Modellfamilie, die mit minimalen aufgabenspezifischen Beispielen auf Bild- und Videoverständnisaufgaben angewendet werden kann. Es handelt sich um eine effektive und effiziente Allzweck-Modellfamilie, die mit minimalen aufgabenspezifischen Beispielen auf Bild- und Videoverständnisaufgaben angewendet werden kann. Die Fähigkeiten von Flamingo ebnen den Weg für umfassende Interaktionen mit erlernten visuellen Sprachmodellen, die eine bessere Interpretierbarkeit und aufregende neue Anwendungen, wie einen visuellen Assistenten, ermöglichen können.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
Geschäft Nachrichtenbericht Technologie
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
3. Mai 2024
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
Märkte Nachrichtenbericht Technologie
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
3. Mai 2024
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
Märkte Nachrichtenbericht Technologie
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
3. Mai 2024
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
Geschäft Nachrichtenbericht Technologie
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
3. Mai 2024