Gali 29, 2023

„Google“ išmokė dirbtinio intelekto modelį „Flamingo“ rašyti „YouTube“ vaizdo įrašų aprašymus

by Damiras Jalalovas

Paskelbta: 29 m. gegužės 2023 d., 2:00 Atnaujinta: 29 m. gegužės 2023 d., 10:55

by Karolina Gaszcz

Redaguota ir patikrinta faktų: 29 m. gegužės 2023 d., 2:00

Trumpai

„Flamingo“ išsprendžia problemą, kai trumpus vaizdo įrašus sunku rasti per paiešką, automatiškai kurdamas aprašymus.

„Google DeepMind“, AI tyrimų laboratorija, turi išsivystęs vaizdinės kalbos modelis „Flamingo“, galintis rašyti trumpų vaizdo įrašų aprašymus „YouTube“. Problema, kurią sprendžia „Flamingo“, yra ta, kad trumpus vaizdo įrašus dažnai sunku rasti naudojant paiešką, nes aprašyme trūksta reikiamos informacijos. „Flamingo“ modelis išsprendžia šią problemą, automatiškai generuodamas tekstus milijonams trumpų vaizdo klipų vaizdo įrašų talpinimo svetainėse, kurie naudojami „užkulisiuose“, kad būtų galima lengvai ieškoti. Nors vaizdo įrašo autoriai nematys metaduomenų, jie padeda žiūrovams rasti ir naršyti šortus. Šiuo metu „Flamingo“ ilgą laiką dirba prie naujų klipų ir apdoroja senesnius vaizdo įrašus, įkeltus į „YouTube“.

„Google“ išmokė dirbtinio intelekto modelį „Flamingo“ rašyti „YouTube“ vaizdo įrašų aprašymus — deepmind.com

Anksčiau „Google“ pristatė algoritmą, leidžiantį žmonėms ieškoti informacijos vaizdo įrašuose naudojant paieškos juostą. Neseniai „TwelveLabs“ iš investuotojų surinko 12 mln. Šios priemonės sukuria naujas vaizdo įrašų galimybes turinio kūrėjai padidinti jų pasiekiamumą ir matomumą. Naudodami dirbtinį intelektą, kad pagerintų ir supaprastintų paieškos procesą ir trumpos formos turinio atradimą, „DeepMind“ ir panašios naujos įmonės sukelia vaizdo įrašų revoliuciją. Transliacijos paslaugos. Jie prisideda prie pažangesnių ir veiksmingesnių paieškos technologijų kūrimo, todėl žiūrovams dar lengviau rasti turinį, kuris juos tikrai domina.

Dirbtinis intelektas vaidina svarbų vaidmenį tobulinant paieškos technologijas. Naudodamas dirbtinį intelektą, „Flamingo“ modelis gali nuskaityti ir suskirstyti turinį bei generuoti tekstus, kurie apibendrina turinį, kad padėtų vartotojams naršyti. Flamingo modelis naudoja giluminius neuroninius tinklus, kad sukurtų tekstinius vaizdo klipo aprašymus pagal vaizdo įrašo garso ir vaizdo turinį. Jis gali užfiksuoti trumpos formos turinio garsinius ir vaizdinius komponentus ir paversti juos santrauka, kurią naudotojai gali lengvai ieškoti ir pasiekti.

AI naudojimas gali padėti nustatyti vartotojams svarbią informaciją, kuri gali būti praleista kūrėjams rankiniu būdu pridedant aprašymus. Daug laiko atimančios pastangos rankiniu būdu užfiksuoti kiekvieną detalę ne visada yra praktiškos, ypač dėl nuolatinio trumpos formos vaizdo įrašų turinio srauto, įkeliamo į tokias platformas kaip „YouTube“. Tai gali sukelti naudotojų painiavą ir nusivylimą ieškant konkretaus trumpos formos turinio. Tačiau naudojant vaizdinės kalbos modelius, pvz., „Flamingo“, metaduomenys gali būti automatiškai generuojami, kad būtų galima lengvai pasiekti santrauką, taip sutaupant laiko ir padarant paieškos procesą efektyvesnį ir tikslesnį.

„Flamingo“ nustato naujus moderniausius vaizdinės kalbos modelius neribotoms užduotims

Svarbiausios detalės yra Flamingo, vienos vaizdinės kalbos modelio, įvedimas (VLM). Flamingo yra vienos vaizdinės kalbos modelis (VLM), kuris redefines kelių kadrų mokymasis įvairiose atvirosios daugiarūšės veiklos srityse. Jis gauna a greitai susidedanti iš vaizdų, vaizdo įrašų ir teksto kaip įvesties ir išvesties susijusia kalba. „Flamingo“ vaizdinė ir tekstinė sąsaja, kaip ir didelių kalbų modelių (LLM), gali paskatinti modelį pasiekti multimodalinį tikslą. Modeliui galima užduoti klausimą naudojant naują vaizdą arba vaizdo įrašą, o tada sukurti atsakymą, pateikiant keletą vaizdinių įvesties porų ir laukiamų tekstinių atsakymų, sudarytų Flamingo raginimu.

„Flamingo“ yra vaizdinės kalbos modelis, sujungiantis didelius kalbų modelius su galingomis vaizdinėmis atvaizdomis ir apmokytas naudojant papildomų didelio masto daugiarūšių duomenų, gaunamų tik iš žiniatinklio, mišinį, nenaudojant jokių mašininio mokymosi tikslais anotuotų duomenų. Jis pranoksta visus ankstesnius kelių kadrų mokymosi metodus, kai pateikia tik keturis pavyzdžius vienai užduočiai, ir pranoksta metodus, kurie yra tiksliai suderinti ir optimizuoti kiekvienai užduočiai atskirai ir naudoja keliomis eilėmis daugiau konkrečios užduoties duomenų. Jis taip pat išbandė modelio kokybines galimybes, viršijančias dabartinius etalonus, pvz., vaizdų, susijusių su lytimi ir odos spalva, antraštes ir sugeneruotų antraštių paleidimą per Google Perspective API, kuri įvertina teksto toksiškumą. „Flamingo“ leidžia efektyviai prisitaikyti prie šių pavyzdžių ir kitų užduočių skrydžio metu, nekeičiant modelio ir demonstruoja daugiarūšio dialogo galimybes.

„Flamingo“ yra bendrosios paskirties modelių šeima, kurią galima pritaikyti vaizdų ir vaizdo įrašų supratimo užduotims su minimaliais konkrečios užduoties pavyzdžiais. Tai efektyvi ir efektyvi bendrosios paskirties modelių šeima, kurią galima pritaikyti vaizdų ir vaizdo įrašų supratimo užduotims su minimaliais konkrečios užduoties pavyzdžiais. „Flamingo“ sugebėjimai atveria kelią į turtingą sąveiką su išmoktais vaizdinės kalbos modeliais, kurie gali padėti geriau interpretuoti ir suteikti naujų įdomių programų, pavyzdžiui, vizualinio asistento.

Skaitykite daugiau apie AI:

Žymos:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.

Daugiau straipsnių

Damiras Jalalovas