Ziņojums Tehnoloģija
29. gada 2023. maijs

Google iemācīja AI modelim Flamingo rakstīt aprakstus YouTube videoklipiem

Īsumā

Flamingo atrisina problēmu, ka īsus videoklipus ir grūti atrast, izmantojot meklēšanu, automātiski izveidojot aprakstus.

Google DeepMind, AI pētniecības laboratorija, ir attīstīts vizuālās valodas modelis Flamingo, kas spēj rakstīt aprakstus īsiem video vietnē YouTube. Problēma, ko risina Flamingo, ir tāda, ka īsus videoklipus bieži ir grūti atrast, izmantojot meklēšanu, jo aprakstā trūkst nepieciešamās informācijas. Flamingo modelis atrisina šo problēmu, automātiski ģenerējot tekstus miljoniem īsu videoklipu video mitināšanas vietnēs, kas tiek izmantoti "aizkulisēs", lai nodrošinātu vieglu meklēšanu. Lai gan videoklipa autori neredzēs metadatus, tie palīdz skatītājiem atrast šortus un pārvietoties. Šobrīd Flamingo jau ilgu laiku strādā pie jauniem klipiem un apstrādā vecākus video, kas augšupielādēti vietnē YouTube.

Google iemācīja AI modelim Flamingo rakstīt aprakstus YouTube videoklipiem
deepmind.com

Agrāk Google ieviesa algoritmu, kas ļauj cilvēkiem meklēt informāciju videoklipos, izmantojot meklēšanas joslu. Nesen TwelveLabs piesaistīja 12 miljonus ASV dolāru no investoriem līdzīgai attīstībai. Šie rīki rada jaunas iespējas video satura veidotāji lai palielinātu to sasniedzamību un redzamību. Izmantojot mākslīgo intelektu, lai uzlabotu un vienkāršotu meklēšanas procesu un īsa satura atklāšanu, DeepMind un līdzīgi jaunuzņēmumi maina video. Straumēšanas pakalpojumi. Tie veicina viedāku un efektīvāku meklēšanas tehnoloģiju izstrādi, padarot skatītājiem vēl vienkāršāku satura atrašanu, kas viņus patiešām interesē.

Mākslīgais intelekts spēlē nozīmīgu lomu meklēšanas tehnoloģiju uzlabošanā. Izmantojot mākslīgo intelektu, Flamingo modelis var skenēt un serializēt saturu un ģenerēt tekstus, kas apkopo saturu, lai palīdzētu lietotājiem orientēties. Flamingo modelis izmanto dziļus neironu tīklus, lai ģenerētu videoklipa tekstuālus aprakstus, pamatojoties uz video audio un vizuālo saturu. Tas var uztvert īsa satura dzirdes un vizuālos komponentus un pārveidot tos kopsavilkumā, kuru lietotājiem ir viegli meklēt un piekļūt.

AI izmantošana var palīdzēt identificēt lietotājiem svarīgu informāciju, kas var tikt nepamanīta, veidojot manuāli, pievienojot aprakstus. Laikietilpīgās pūles, lai manuāli tvertu katru detaļu, ne vienmēr ir praktiskas, jo īpaši ar pastāvīgu īsas formas video satura plūsmu, kas augšupielādēts tādās platformās kā YouTube. Tas var radīt lietotāju apjukumu un neapmierinātību, meklējot konkrētu īsas formas saturu. Tomēr, izmantojot vizuālās valodas modeļus, piemēram, Flamingo, metadatus var automātiski ģenerēt, lai nodrošinātu kopsavilkumu ērtai piekļuvei, tādējādi ietaupot laiku un padarot meklēšanas procesu efektīvāku un precīzāku.

Flamingo izveido jaunus, mūsdienīgus vizuālās valodas modeļus beztermiņa uzdevumiem

Vissvarīgākās detaļas ir Flamingo, vienotas vizuālās valodas modeļa ieviešana (VLM), kas nosaka jaunus sasniegumus dažu kadru mācībās par plašu atvērta tipa multimodālu uzdevumu klāstu. Flamingo ir vienotas vizuālās valodas modelis (VLM), kas redefines dažu kadru mācības plašā beztermiņa multimodālo aktivitāšu klāstā. Tā saņem a tūlītēja kas sastāv no savstarpēji savienotiem attēliem, videoklipiem un teksta kā ievades un izvades valodas. Flamingo vizuālais un teksta interfeiss, piemēram, lielo valodu modeļu saskarne (LLM), var virzīt modeli uz multimodāla mērķa sasniegšanu. Modelim var uzdot jautājumu ar jaunu attēlu vai videoklipu un pēc tam izveidot atbildi, ņemot vērā dažus vizuālo ievades pāru piemērus un paredzamās teksta atbildes, kas sastādītas Flamingo uzvednē.

Flamingo ir vizuālās valodas modelis, kas apvieno lielus valodu modeļus ar spēcīgiem vizuāliem attēlojumiem un ir apmācīts, izmantojot papildu liela mēroga multimodālus datus, kas nāk tikai no tīmekļa, neizmantojot nekādus datus, kas anotēti mašīnmācīšanās nolūkos. Tas pārspēj visas iepriekšējās dažu kadru mācīšanās pieejas, ja katram uzdevumam ir sniegti tikai četri piemēri, un tā pārspēj metodes, kas ir precīzi noregulētas un optimizētas katram uzdevumam neatkarīgi un izmanto vairākas kārtas vairāk uzdevumam raksturīgu datu. Tā arī pārbaudīja modeļa kvalitatīvās iespējas, kas pārsniedz tā pašreizējos etalonus, piemēram, ar dzimumu un ādas krāsu saistīto attēlu parakstīšanu un ģenerēto parakstu palaišanu, izmantojot Google Perspective API, kas novērtē teksta toksiskumu. Flamingo ļauj efektīvi pielāgoties šiem piemēriem un citiem uzdevumiem lidojuma laikā, nepārveidojot modeli, un demonstrē gatavās multimodālā dialoga iespējas.

Flamingo ir universāla modeļu saime, ko var izmantot attēlu un video izpratnes uzdevumiem ar minimāliem uzdevumiem raksturīgiem piemēriem. Tā ir efektīva un iedarbīga vispārēja pielietojuma modeļu saime, ko var izmantot attēlu un video izpratnes uzdevumiem ar minimāliem uzdevumiem raksturīgiem piemēriem. Flamingo spējas paver ceļu uz bagātīgu mijiedarbību ar apgūtiem vizuālās valodas modeļiem, kas var nodrošināt labāku interpretāciju un aizraujošas jaunas lietojumprogrammas, piemēram, vizuālo palīgu.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Injective apvieno spēkus ar AltLayer, lai nodrošinātu atkārtotu inEVM drošību
bizness Ziņojums Tehnoloģija
Injective apvieno spēkus ar AltLayer, lai nodrošinātu atkārtotu inEVM drošību
3. gada 2024. maijs
Masa sadarbojas ar Teller, lai ieviestu MASA aizdevumu fondu, ļaujot USDC aizņemties bāzē
Markets Ziņojums Tehnoloģija
Masa sadarbojas ar Teller, lai ieviestu MASA aizdevumu fondu, ļaujot USDC aizņemties bāzē
3. gada 2024. maijs
Velodrome nākamajās nedēļās izlaiž Superchain Beta versiju un izvēršas visās OP Stack Layer 2 blokķēdes
Markets Ziņojums Tehnoloģija
Velodrome nākamajās nedēļās izlaiž Superchain Beta versiju un izvēršas visās OP Stack Layer 2 blokķēdes
3. gada 2024. maijs
CARV paziņo par sadarbību ar Aethir, lai decentralizētu savu datu slāni un sadalītu atlīdzības
bizness Ziņojums Tehnoloģija
CARV paziņo par sadarbību ar Aethir, lai decentralizētu savu datu slāni un sadalītu atlīdzības
3. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.