Nieuwsverslag Technologie
29 mei 2023

Google heeft AI-model Flamingo geleerd om beschrijvingen voor YouTube-video's te schrijven

In het kort

Flamingo lost het probleem op dat korte video's moeilijk te vinden zijn door middel van automatische beschrijvingen.

Google DeepMind, het AI-onderzoekslaboratorium, heeft ontwikkelde een beeldtaalmodel genaamd Flamingo dat beschrijvingen kan schrijven voor korte video's op YouTube. Het probleem dat Flamingo aanpakt, is dat korte video's vaak moeilijk te vinden zijn via zoeken vanwege het ontbreken van de nodige informatie in de beschrijving. Het Flamingo-model lost dit probleem op door automatisch teksten te genereren voor miljoenen korte videoclips op video-hostingsites, die 'achter de schermen' worden gebruikt om gemakkelijk zoeken mogelijk te maken. Hoewel de video-auteurs de metadata niet zullen zien, helpt het de kijkers om de korte films te vinden en er doorheen te navigeren. Momenteel werkt Flamingo al geruime tijd aan nieuwe clips en aan het verwerken van oudere video's die naar YouTube zijn geüpload.

Google heeft AI-model Flamingo geleerd om beschrijvingen voor YouTube-video's te schrijven
deepmind. com

In het verleden heeft Google een algoritme geïntroduceerd waarmee mensen via de zoekbalk naar informatie in video's kunnen zoeken. Onlangs haalde TwelveLabs $ 12 miljoen op bij investeerders voor een vergelijkbare ontwikkeling. Deze tools creëren nieuwe mogelijkheden voor video makers van inhoud om hun bereik en zichtbaarheid te vergroten. Door gebruik te maken van AI om het zoekproces en de ontdekking van korte inhoud te verbeteren en te vereenvoudigen, brengen DeepMind en soortgelijke startups een revolutie teweeg in video Streaming services. Ze dragen bij aan de ontwikkeling van intelligentere en efficiëntere zoektechnologieën, waardoor het voor kijkers nog eenvoudiger wordt om inhoud te vinden die hen echt interesseert.

Kunstmatige intelligentie speelt een belangrijke rol bij het upgraden van zoektechnologieën. Door gebruik te maken van AI kan het Flamingo-model de inhoud scannen en serialiseren en teksten genereren die de inhoud samenvatten om gebruikers te helpen navigeren. Het Flamingo-model gebruikt diepe neurale netwerken om tekstuele beschrijvingen van een videoclip te genereren op basis van de audio- en visuele inhoud van de video. Het kan de auditieve en visuele componenten van korte inhoud vastleggen en deze omzetten in een samenvatting die gebruikers gemakkelijk kunnen doorzoeken en openen.

Het gebruik van AI kan helpen bij het identificeren van belangrijke informatie voor de gebruikers, die mogelijk over het hoofd wordt gezien door de handmatige inspanningen van makers bij het toevoegen van beschrijvingen. De tijdrovende inspanning om elk detail handmatig vast te leggen is niet altijd praktisch, vooral niet met de constante stroom van korte video-inhoud die wordt geüpload naar platforms zoals YouTube. Dit kan leiden tot verwarring en frustratie bij de gebruiker bij het zoeken naar specifieke korte inhoud. Met het gebruik van visuele taalmodellen, zoals Flamingo, kunnen de metadata echter automatisch worden gegenereerd om een ​​samenvatting te bieden voor gemakkelijke toegang, waardoor tijd wordt bespaard en het zoekproces efficiënter en nauwkeuriger wordt.

Flamingo stelt nieuwe state-of-the-art visuele taalmodellen in voor taken met een open einde

De belangrijkste details zijn de introductie van Flamingo, één beeldtaalmodel (VLM) dat een nieuwe stand van zaken biedt op het gebied van leren in een paar stappen voor een breed scala aan multimodale taken met een open einde. Flamingo is een enkelvoudig visueel taalmodel (VLM) dat redefines weinig-schots leren over een breed scala aan multimodale activiteiten met een open einde. Het ontvangt een prompt bestaande uit doorschoten afbeeldingen, video's en tekst als invoer en voert de bijbehorende taal uit. Flamingo's visuele en tekstinterface, zoals die van grote taalmodellen (LLM's), kan het model leiden naar het bereiken van een multimodaal doel. Het model kan een vraag worden gesteld met een nieuwe afbeelding of video en vervolgens een antwoord construeren, op basis van een paar voorbeeldparen van visuele input en verwachte tekstreacties die zijn samengesteld in Flamingo's prompt.

Flamingo is een visueel taalmodel dat grote taalmodellen combineert met krachtige visuele representaties en is getraind op een mix van complementaire grootschalige multimodale gegevens die alleen afkomstig zijn van internet zonder gebruik te maken van gegevens die zijn geannoteerd voor machine learning-doeleinden. Het verslaat alle voorgaande leerbenaderingen met slechts vier voorbeelden per taak en presteert beter dan methoden die voor elke taak onafhankelijk zijn afgestemd en geoptimaliseerd en meerdere ordes van grootte meer taakspecifieke gegevens gebruiken. Het testte ook de kwalitatieve mogelijkheden van het model buiten de huidige benchmarks, zoals ondertiteling van afbeeldingen met betrekking tot geslacht en huidskleur en het uitvoeren van de gegenereerde ondertiteling via de Perspective API van Google, die de toxiciteit van tekst evalueert. Flamingo maakt het mogelijk om efficiënt aan deze voorbeelden en andere taken on-the-fly aan te passen zonder het model aan te passen en demonstreert out-of-the-box multimodale dialoogmogelijkheden.

Flamingo is een familie van modellen voor algemeen gebruik die kan worden toegepast op beeld- en video-begripstaken met minimale taakspecifieke voorbeelden. Het is een effectieve en efficiënte familie van modellen voor algemeen gebruik die kan worden toegepast op beeld- en video-begripstaken met minimale taakspecifieke voorbeelden. Flamingo's vaardigheden maken de weg vrij voor rijke interacties met aangeleerde visuele taalmodellen die een betere interpreteerbaarheid en opwindende nieuwe toepassingen mogelijk maken, zoals een visuele assistent.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Miljarden in Blockchain: de baanbrekende investeringen van de week uitpakken en de toekomst van Crypto veranderen
Verteren Toplijsten Zakelijk Markten Software Technologie
Miljarden in Blockchain: de baanbrekende investeringen van de week uitpakken en de toekomst van Crypto veranderen
19 juli 2024
QCP Capital: Markt verwacht doorbraak in aanloop naar Amerikaanse presidentsverkiezingen, sterker vertrouwen in herstel aan het einde van het jaar
Markten Nieuwsverslag Technologie
QCP Capital: Markt verwacht doorbraak in aanloop naar Amerikaanse presidentsverkiezingen, sterker vertrouwen in herstel aan het einde van het jaar
19 juli 2024
Crypto Exchange Binance voegt Gravity's G-token toe om eenvoudig crypto te verdienen, crypto te kopen, te converteren en marges te maken
Markten Nieuwsverslag Technologie
Crypto Exchange Binance voegt Gravity's G-token toe om eenvoudig crypto te verdienen, crypto te kopen, te converteren en marges te maken
19 juli 2024
Solana Foundation biedt $400,000 subsidies aan open source-ontwikkelaars, met behulp van Actions And Blinks-tools
Nieuwsverslag Software Technologie
Solana Foundation biedt $400,000 subsidies aan open source-ontwikkelaars, met behulp van Actions And Blinks-tools
19 juli 2024