29. gada 2023. maijs

Google iemācīja AI modelim Flamingo rakstīt aprakstus YouTube videoklipiem

Publicēts: 29. gada 2023. maijā, plkst. 2:00. Atjaunināts: 29. gada 2023. maijā, plkst. 10:55

Rediģēts un pārbaudīts ar faktiem: 29. gada 2023. maijā plkst. 2:00

Īsumā

Flamingo atrisina problēmu, ka īsus videoklipus ir grūti atrast, izmantojot meklēšanu, automātiski izveidojot aprakstus.

Google DeepMind, AI pētniecības laboratorija, ir attīstīts vizuālās valodas modelis Flamingo, kas spēj rakstīt aprakstus īsiem video vietnē YouTube. Problēma, ko risina Flamingo, ir tāda, ka īsus videoklipus bieži ir grūti atrast, izmantojot meklēšanu, jo aprakstā trūkst nepieciešamās informācijas. Flamingo modelis atrisina šo problēmu, automātiski ģenerējot tekstus miljoniem īsu videoklipu video mitināšanas vietnēs, kas tiek izmantoti "aizkulisēs", lai nodrošinātu vieglu meklēšanu. Lai gan videoklipa autori neredzēs metadatus, tie palīdz skatītājiem atrast šortus un pārvietoties. Šobrīd Flamingo jau ilgu laiku strādā pie jauniem klipiem un apstrādā vecākus video, kas augšupielādēti vietnē YouTube.

Google iemācīja AI modelim Flamingo rakstīt aprakstus YouTube videoklipiem — deepmind.com

Agrāk Google ieviesa algoritmu, kas ļauj cilvēkiem meklēt informāciju videoklipos, izmantojot meklēšanas joslu. Nesen TwelveLabs piesaistīja 12 miljonus ASV dolāru no investoriem līdzīgai attīstībai. Šie rīki rada jaunas iespējas video satura veidotāji lai palielinātu to sasniedzamību un redzamību. Izmantojot mākslīgo intelektu, lai uzlabotu un vienkāršotu meklēšanas procesu un īsa satura atklāšanu, DeepMind un līdzīgi jaunuzņēmumi maina video. Straumēšanas pakalpojumi. Tie veicina viedāku un efektīvāku meklēšanas tehnoloģiju izstrādi, padarot skatītājiem vēl vienkāršāku satura atrašanu, kas viņus patiešām interesē.

Mākslīgais intelekts spēlē nozīmīgu lomu meklēšanas tehnoloģiju uzlabošanā. Izmantojot mākslīgo intelektu, Flamingo modelis var skenēt un serializēt saturu un ģenerēt tekstus, kas apkopo saturu, lai palīdzētu lietotājiem orientēties. Flamingo modelis izmanto dziļus neironu tīklus, lai ģenerētu videoklipa tekstuālus aprakstus, pamatojoties uz video audio un vizuālo saturu. Tas var uztvert īsa satura dzirdes un vizuālos komponentus un pārveidot tos kopsavilkumā, kuru lietotājiem ir viegli meklēt un piekļūt.

AI izmantošana var palīdzēt identificēt lietotājiem svarīgu informāciju, kas var tikt nepamanīta, veidojot manuāli, pievienojot aprakstus. Laikietilpīgās pūles, lai manuāli tvertu katru detaļu, ne vienmēr ir praktiskas, jo īpaši ar pastāvīgu īsas formas video satura plūsmu, kas augšupielādēts tādās platformās kā YouTube. Tas var radīt lietotāju apjukumu un neapmierinātību, meklējot konkrētu īsas formas saturu. Tomēr, izmantojot vizuālās valodas modeļus, piemēram, Flamingo, metadatus var automātiski ģenerēt, lai nodrošinātu kopsavilkumu ērtai piekļuvei, tādējādi ietaupot laiku un padarot meklēšanas procesu efektīvāku un precīzāku.

Flamingo izveido jaunus, mūsdienīgus vizuālās valodas modeļus beztermiņa uzdevumiem

Vissvarīgākās detaļas ir Flamingo, vienotas vizuālās valodas modeļa ieviešana (VLM), kas nosaka jaunus sasniegumus dažu kadru mācībās par plašu atvērta tipa multimodālu uzdevumu klāstu. Flamingo ir vienotas vizuālās valodas modelis (VLM), kas redefines dažu kadru mācības plašā beztermiņa multimodālo aktivitāšu klāstā. Tā saņem a tūlītēja kas sastāv no savstarpēji savienotiem attēliem, videoklipiem un teksta kā ievades un izvades valodas. Flamingo vizuālais un teksta interfeiss, piemēram, lielo valodu modeļu saskarne (LLM), var virzīt modeli uz multimodāla mērķa sasniegšanu. Modelim var uzdot jautājumu ar jaunu attēlu vai videoklipu un pēc tam izveidot atbildi, ņemot vērā dažus vizuālo ievades pāru piemērus un paredzamās teksta atbildes, kas sastādītas Flamingo uzvednē.

Flamingo ir vizuālās valodas modelis, kas apvieno lielus valodu modeļus ar spēcīgiem vizuāliem attēlojumiem un ir apmācīts, izmantojot papildu liela mēroga multimodālus datus, kas nāk tikai no tīmekļa, neizmantojot nekādus datus, kas anotēti mašīnmācīšanās nolūkos. Tas pārspēj visas iepriekšējās dažu kadru mācīšanās pieejas, ja katram uzdevumam ir sniegti tikai četri piemēri, un tā pārspēj metodes, kas ir precīzi noregulētas un optimizētas katram uzdevumam neatkarīgi un izmanto vairākas kārtas vairāk uzdevumam raksturīgu datu. Tā arī pārbaudīja modeļa kvalitatīvās iespējas, kas pārsniedz tā pašreizējos etalonus, piemēram, ar dzimumu un ādas krāsu saistīto attēlu parakstīšanu un ģenerēto parakstu palaišanu, izmantojot Google Perspective API, kas novērtē teksta toksiskumu. Flamingo ļauj efektīvi pielāgoties šiem piemēriem un citiem uzdevumiem lidojuma laikā, nepārveidojot modeli, un demonstrē gatavās multimodālā dialoga iespējas.

Flamingo ir universāla modeļu saime, ko var izmantot attēlu un video izpratnes uzdevumiem ar minimāliem uzdevumiem raksturīgiem piemēriem. Tā ir efektīva un iedarbīga vispārēja pielietojuma modeļu saime, ko var izmantot attēlu un video izpratnes uzdevumiem ar minimāliem uzdevumiem raksturīgiem piemēriem. Flamingo spējas paver ceļu uz bagātīgu mijiedarbību ar apgūtiem vizuālās valodas modeļiem, kas var nodrošināt labāku interpretāciju un aizraujošas jaunas lietojumprogrammas, piemēram, vizuālo palīgu.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs