Maj 29, 2023

Google lærte AI Model Flamingo at skrive beskrivelser til YouTube-videoer

by Damir Yalalov

Udgivet: 29. maj 2023 kl. 2 Opdateret: 00. maj 29 kl. 2023

by Karolina Gaszcz

Redigeret og faktatjekket: 29. maj 2023 kl. 2

Kort sagt

Flamingo løser problemet med, at korte videoer er svære at finde gennem søgning ved automatisk at oprette beskrivelser.

Google DeepMind, AI-forskningslaboratoriet, har udviklet en visuel sprogmodel kaldet Flamingo, der er i stand til at skrive beskrivelser til korte videoer på YouTube. Problemet, som Flamingo adresserer, er, at korte videoer ofte er svære at lokalisere via søgning på grund af mangel på nødvendige oplysninger i beskrivelsen. Flamingo-modellen løser dette problem ved automatisk at generere tekster til millioner af korte videoklip på videohostingsider, som bruges "bag kulisserne" for at muliggøre nem søgning. Selvom videoforfatterne ikke kan se metadataene, hjælper det seerne med at finde og navigere i shortsene. I øjeblikket har Flamingo arbejdet på nye klip og behandlet ældre videoer uploadet til YouTube i lang tid.

Google lærte AI Model Flamingo at skrive beskrivelser til YouTube-videoer — deepmind.com

Tidligere introducerede Google en algoritme, der gør det muligt for folk at søge efter information i videoer ved hjælp af søgelinjen. For nylig rejste TwelveLabs 12 millioner dollars fra investorer til en lignende udvikling. Disse værktøjer skaber nye muligheder for video indhold skabere for at øge deres rækkevidde og synlighed. Ved at udnytte kunstig intelligens til at forbedre og forenkle søgeprocessen og opdagelsen af indhold i kort form, revolutionerer DeepMind og lignende startups video streaming tjenester. De bidrager til udviklingen af mere intelligente og effektive søgeteknologier, hvilket gør det endnu nemmere for seerne at finde indhold, der virkelig interesserer dem.

Kunstig intelligens spiller en væsentlig rolle i opgradering af søgeteknologier. Ved at udnytte AI kan Flamingo-modellen scanne og serialisere indholdet og generere tekster, der opsummerer indholdet for at hjælpe brugerne med at navigere. Flamingo-modellen bruger dybe neurale netværk til at generere tekstmæssige beskrivelser af et videoklip baseret på videoens lyd- og visuelle indhold. Det kan fange de auditive og visuelle komponenter i kortformatindhold og omdanne dem til et resumé, der er nemt for brugerne at søge efter og få adgang til.

Brugen af kunstig intelligens kan hjælpe med at identificere vigtig information for brugerne, som kan blive savnet i skabernes manuelle indsats, mens de tilføjer beskrivelser. Den tidskrævende indsats for manuelt at fange hver eneste detalje er ikke altid praktisk, især med den konstante strøm af kortformat videoindhold uploadet på platforme som YouTube. Dette kan føre til brugerforvirring og frustration, når de søger efter specifikt indhold i kort form. Men med brugen af visuelle sprogmodeller, såsom Flamingo, kan metadataene genereres automatisk for at give et resumé for nem adgang, og dermed spare tid og gøre søgeprocessen mere effektiv og præcis.

Flamingo sætter nye state-of-the-art visuelle sprogmodeller til åbne opgaver

De vigtigste detaljer er introduktionen af Flamingo, en enkelt visuel sprogmodel (VLM), der sætter en ny state of the art inden for få-skuds læring på en bred vifte af åbne multimodale opgaver. Flamingo er en enkelt visuel sprogmodel (VLM), der vedrdefines få-skuds læring på tværs af en bred vifte af åbne multimodale aktiviteter. Den modtager en prompt bestående af interleaved billeder, videoer og tekst som input og output til det tilhørende sprog. Flamingo's visuelle og tekstgrænseflade, som dem for store sprogmodeller (LLM'er), kan lede modellen mod at opnå et multimodalt mål. Modellen kan stilles et spørgsmål med et nyt billede eller video og derefter konstruere et svar, givet et par eksempler på visuelle input og forventede tekstsvar komponeret i Flamingos prompt.

Flamingo er en visuel sprogmodel, der fusionerer store sprogmodeller med kraftfulde visuelle repræsentationer og er trænet på en blanding af komplementære multimodale data i stor skala, der kun kommer fra nettet uden at bruge nogen data, der er kommenteret til maskinlæringsformål. Det slår alle tidligere få-skuds læringstilgange, når det gives så få som fire eksempler pr. opgave og overgår metoder, der er finjusteret og optimeret til hver opgave uafhængigt og bruger flere størrelsesordener mere opgavespecifikke data. Den testede også modellens kvalitative muligheder ud over dens nuværende benchmarks, såsom billedtekster relateret til køn og hudfarve og kørsel af dens genererede billedtekster gennem Googles Perspective API, som evaluerer tekstens toksicitet. Flamingo gør det muligt effektivt at tilpasse sig disse eksempler og andre opgaver på farten uden at ændre modellen og demonstrerer ud-af-boksen multimodale dialogmuligheder.

Flamingo er en familie af modeller til generelle formål, der kan anvendes til billed- og videoforståelsesopgaver med minimale opgavespecifikke eksempler. Det er en effektiv og effektiv familie af modeller til generelle formål, der kan anvendes til billed- og videoforståelsesopgaver med minimale opgavespecifikke eksempler. Flamingos evner baner vejen for rig interaktion med indlærte visuelle sprogmodeller, der kan muliggøre bedre fortolkning og spændende nye applikationer, som en visuel assistent.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov