Uudiste reportaaž Tehnoloogia
Võib 29 2023

Google õpetas AI-mudelit Flamingot YouTube'i videotele kirjeldusi kirjutama

Põgusalt

Flamingo lahendab kirjelduste automaatse loomisega probleemi, et lühikesi videoid on otsingu kaudu raske leida.

AI uurimislaboris Google DeepMind on olemas arenenud visuaalne keelemudel nimega Flamingo, mis on võimeline kirjutama YouTube'i lühikeste videote kirjeldusi. Probleem, millega Flamingo tegeleb, seisneb selles, et lühikesi videoid on sageli raske otsingu abil leida, kuna kirjelduses puudub vajalik teave. Flamingo mudel lahendab selle probleemi, genereerides automaatselt tekstid miljonite lühikeste videoklippide jaoks videomajutussaitidel, mida kasutatakse lihtsa otsingu võimaldamiseks "kulisside taga". Kuigi video autorid metaandmeid ei näe, aitab see vaatajatel lühikesi pükse leida ja navigeerida. Praegu on Flamingo pikka aega tegelenud uute klippide kallal ja YouTube'i üles laaditud vanemate videote töötlemisega.

Google õpetas AI-mudelit Flamingot YouTube'i videotele kirjeldusi kirjutama
deepmind.com

Varem tutvustas Google algoritmi, mis võimaldab inimestel otsida videote seest teavet otsinguriba abil. Hiljuti kogus TwelveLabs sarnase arenduse jaoks investoritelt 12 miljonit dollarit. Need tööriistad loovad video jaoks uusi võimalusi sisu loojad suurendada nende ulatust ja nähtavust. Kasutades tehisintellekti otsinguprotsessi ja lühikese sisu avastamise parandamiseks ja lihtsustamiseks, muudavad DeepMind ja sarnased idufirmad video revolutsiooni. voogesituse teenused. Nad aitavad kaasa intelligentsemate ja tõhusamate otsingutehnoloogiate arendamisele, muutes vaatajatel veelgi lihtsamaks neid tõeliselt huvitava sisu leidmise.

Tehisintellekt mängib otsingutehnoloogiate uuendamisel olulist rolli. Tehisintellekti võimendades saab Flamingo mudel sisu skannida ja järjestada ning luua tekste, mis võtavad sisu kokku, et aidata kasutajatel navigeerida. Flamingo mudel kasutab sügavaid närvivõrke, et luua videoklipi tekstilisi kirjeldusi video heli- ja visuaalse sisu põhjal. See suudab jäädvustada lühivormis sisu kuulmis- ja visuaalseid komponente ning muuta need kokkuvõtteks, mida kasutajatel on lihtne otsida ja millele on lihtne juurde pääseda.

Tehisintellekti kasutamine võib aidata tuvastada kasutajate jaoks olulist teavet, mis võib kirjelduste lisamisel loojate käsitsi tehes kahe silma vahele jääda. Aeganõudev pingutus iga detaili käsitsi jäädvustamiseks ei ole alati otstarbekas, eriti platvormidele nagu YouTube laaditava lühivormilise videosisu pideva voo korral. See võib põhjustada kasutajate segadust ja pettumust konkreetse lühivormingus sisu otsimisel. Kuid visuaalsete keelemudelite (nt Flamingo) kasutamisel saab metaandmeid automaatselt genereerida, et luua kokkuvõte hõlpsaks juurdepääsuks, säästes nii aega ja muutes otsinguprotsessi tõhusamaks ja täpsemaks.

Flamingo seab avatud ülesannete jaoks uued tipptasemel visuaalse keele mudelid

Kõige olulisemad üksikasjad on Flamingo, ühtse visuaalse keele mudeli kasutuselevõtt (VLM). Flamingo on ühe visuaalse keele mudel (VLM), mis on redefimitmete avatud multimodaalsete tegevuste raames. See saab a kiire koosneb sisendiks olevatest piltidest, videotest ja tekstist ning väljastab seotud keele. Flamingo visuaalne ja tekstiliides, nagu suurte keelemudelite omad (LLM-id), võib juhtida mudelit multimodaalse eesmärgi saavutamise poole. Mudelile saab esitada küsimuse värske pildi või videoga ja seejärel koostada vastuse, andes mõned näidispaarid visuaalsest sisendist ja eeldatavast tekstivast vastusest, mis on koostatud Flamingo käsus.

Flamingo on visuaalne keelemudel, mis ühendab suuri keelemudeleid võimsate visuaalsete esitusviisidega ja on treenitud ainult veebist pärinevate täiendavate suuremahuliste multimodaalsete andmete segul, kasutamata masinõppe eesmärgil annoteeritud andmeid. See ületab kõik varasemad mõne võttega õppimise lähenemisviisid, kui ülesande kohta antakse vaid neli näidet, ja ületab meetodid, mis on peenhäälestatud ja optimeeritud iga ülesande jaoks eraldi ning kasutavad mitu suurusjärku rohkem ülesandepõhiseid andmeid. Samuti katsetas see mudeli kvalitatiivseid võimeid, mis ületasid selle praegusi võrdlusaluseid, nagu soo ja nahavärviga seotud piltide pealdised ning selle loodud pealkirjade käitamine Google'i Perspective API kaudu, mis hindab teksti toksilisust. Flamingo võimaldab nende näidete ja muude ülesannetega tõhusalt kohaneda käigupealt ilma mudelit muutmata ning demonstreerib multimodaalse dialoogi võimalusi.

Flamingo on üldotstarbeline mudelite perekond, mida saab rakendada piltide ja videote mõistmise ülesannetes minimaalsete ülesandepõhiste näidetega. See on tõhus ja tõhus üldotstarbeline mudelite perekond, mida saab rakendada pildi- ja videomõistmisülesannetes minimaalsete ülesandespetsiifiliste näidetega. Flamingo võimed sillutavad teed rikkalikule suhtlusele õpitud visuaalse keele mudelitega, mis võimaldavad paremat tõlgendatavust ja põnevaid uusi rakendusi, nagu visuaalne assistent.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Hot Stories
Liituge meie uudiskirjaga.
Uudised

Institutsionaalne isu kasvab volatiilsuse tõttu Bitcoini ETF-ide poole

13F-i dokumentide kaudu avaldatud teave paljastab märkimisväärsed institutsionaalsed investorid, kes tegelevad Bitcoini ETF-idega, rõhutades, et ...

Rohkem teada

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Injective ühendab jõud AltLayeriga, et tuua inEVM-i uuesti turvalisus
Äri Uudiste reportaaž Tehnoloogia
Injective ühendab jõud AltLayeriga, et tuua inEVM-i uuesti turvalisus
Võib 3 2024
Masa teeb koostööd Telleriga, et tutvustada MASA laenufondi, mis võimaldab USDC baasil laenu võtta
turud Uudiste reportaaž Tehnoloogia
Masa teeb koostööd Telleriga, et tutvustada MASA laenufondi, mis võimaldab USDC baasil laenu võtta
Võib 3 2024
Velodrome toob lähinädalatel turule Superchaini beetaversiooni ja laieneb üle OP Stack Layer 2 plokiahelate
turud Uudiste reportaaž Tehnoloogia
Velodrome toob lähinädalatel turule Superchaini beetaversiooni ja laieneb üle OP Stack Layer 2 plokiahelate
Võib 3 2024
CARV teatab koostööst Aethiriga, et detsentraliseerida oma andmekiht ja jaotada auhindu
Äri Uudiste reportaaž Tehnoloogia
CARV teatab koostööst Aethiriga, et detsentraliseerida oma andmekiht ja jaotada auhindu
Võib 3 2024
CRYPTOMERIA LABS PTE. LTD.