Tudósítást Technológia
May 29, 2023

A Google megtanította a Flamingo mesterséges intelligencia-modell leírását a YouTube-videókhoz

Röviden

A Flamingo a leírások automatikus létrehozásával megoldja azt a problémát, hogy a rövid videókat nehéz megtalálni a kereséssel.

A Google DeepMind, az AI kutatólaboratórium rendelkezik fejlett a Flamingo nevű vizuális nyelvi modell, amely képes leírásokat írni a YouTube-on található rövid videókhoz. A Flamingo által kezelt probléma az, hogy a rövid videókat gyakran nehéz megtalálni a kereséssel, mivel a leírásból hiányoznak a szükséges információk. A Flamingo modell úgy oldja meg ezt a problémát, hogy automatikusan szövegeket generál több millió rövid videokliphez a videómegosztó oldalakon, amelyeket „a színfalak mögött” használnak az egyszerű keresés érdekében. Bár a videó szerzői nem látják a metaadatokat, segít a nézőknek megtalálni és eligazodni a rövidfilmekben. Jelenleg a Flamingo már régóta dolgozik új klipeken és a YouTube-ra feltöltött régebbi videók feldolgozásán.

A Google megtanította a Flamingo mesterséges intelligencia-modell leírását a YouTube-videókhoz
deepmind.com

A múltban a Google bevezetett egy algoritmust, amely lehetővé teszi az emberek számára, hogy a keresősáv segítségével keressenek információkat a videókon belül. Nemrég a TwelveLabs 12 millió dollárt gyűjtött be befektetőktől egy hasonló fejlesztéshez. Ezek az eszközök új lehetőségeket teremtenek a videózáshoz tartalomkészítők hogy növeljék elérhetőségüket és láthatóságukat. A DeepMind és a hasonló induló vállalkozások azáltal, hogy a mesterséges intelligencia fejlesztését és egyszerűsítését javítja és egyszerűsíti a keresési folyamat és a rövid formátumú tartalom felfedezése érdekében, forradalmasítja a videózást. Streaming szolgáltatások. Hozzájárulnak az intelligensebb és hatékonyabb keresési technológiák kifejlesztéséhez, így a nézők számára még egyszerűbbé válik az őket igazán érdeklő tartalom megtalálása.

A mesterséges intelligencia jelentős szerepet játszik a keresési technológiák fejlesztésében. A mesterséges intelligencia kihasználásával a Flamingo modell képes szkennelni és sorozatba rendezni a tartalmat, és szövegeket generálni, amelyek összefoglalják a tartalmat, hogy segítsék a felhasználókat a navigációban. A Flamingo modell mély neurális hálózatokat használ, hogy szöveges leírásokat hozzon létre egy videoklipről a videó hang- és képtartalma alapján. Képes megragadni a rövid formátumú tartalmak auditív és vizuális összetevőit, és összefoglalóvá alakítani, amelyet a felhasználók könnyen kereshetnek és elérhetnek.

A mesterséges intelligencia használata segíthet azonosítani a felhasználók számára fontos információkat, amelyek az alkotók manuális erőfeszítései során a leírások hozzáadása során elmulaszthatnak. Az időigényes erőfeszítés, hogy minden részletet manuálisan rögzítsenek, nem mindig praktikus, különösen az olyan platformokra, mint a YouTube, feltöltött rövid formátumú videotartalmak folyamatos áramlása mellett. Ez zavartsághoz és frusztrációhoz vezethet a felhasználókban, amikor meghatározott rövid formátumú tartalmat keresnek. A vizuális nyelvi modellek, például a Flamingo használatával azonban a metaadatok automatikusan generálhatók, hogy összefoglalót készítsenek a könnyű hozzáférés érdekében, így időt takaríthat meg, és hatékonyabbá és pontosabbá teheti a keresési folyamatot.

A Flamingo új, legkorszerűbb vizuális nyelvi modelleket állít be a nyílt végű feladatokhoz

A legfontosabb részletek a Flamingo, egy egységes vizuális nyelvi modell bemutatása (VLM). A Flamingo egyetlen vizuális nyelvi modell (VLM), amely redefia néhány lépésben történő tanulás a nyílt végű multimodális tevékenységek széles skáláján. Megkapja a azonnali amely interleaved képekből, videókból és szövegből áll bemenetként és kimenetként a kapcsolódó nyelvet. A Flamingo vizuális és szöveges felülete, mint a nagy nyelvi modelleké (LLM-ek), elvezetheti a modellt egy multimodális cél elérése felé. A modellnek feltehet egy kérdést egy friss képpel vagy videóval, majd megszerkesztheti a választ, néhány példapárral a vizuális bemenetek és a Flamingo promptjában összeállított várt szöveges válaszok alapján.

A Flamingo egy vizuális nyelvi modell, amely nagy nyelvi modelleket egyesít erőteljes vizuális reprezentációkkal, és csak az internetről származó, kiegészítő, nagy léptékű multimodális adatok keverékére van kiképezve anélkül, hogy gépi tanulási célokra megjegyzésekkel ellátott adatokat használna fel. Ez felülmúlja az összes korábbi néhány lépésből álló tanulási megközelítést, ha feladatonként mindössze négy példát ad fel, és felülmúlja azokat a módszereket, amelyek az egyes feladatokhoz függetlenül vannak finomhangolva és optimalizálva, és több nagyságrenddel több feladatspecifikus adatot használnak. Emellett tesztelte a modell minőségi képességeit a jelenlegi benchmarkokon túl, például a nemhez és a bőrszínhez kapcsolódó képek feliratozását, valamint a generált feliratok futtatását a Google Perspective API-ján keresztül, amely értékeli a szöveg toxicitását. A Flamingo lehetővé teszi, hogy a modell módosítása nélkül hatékonyan alkalmazkodjunk ezekhez a példákhoz és más feladatokhoz, menet közben, és bemutatja az azonnali multimodális párbeszéd képességeit.

A Flamingo egy általános célú modellcsalád, amely minimális feladatspecifikus példákkal alkalmazható kép- és videóértési feladatokra. Ez egy hatékony és hatékony általános célú modellcsalád, amely minimális feladatspecifikus példákkal alkalmazható kép- és videóértési feladatokra. A Flamingo képességei megnyitják az utat a tanult vizuális nyelvi modellekkel való gazdag interakciók felé, amelyek jobb értelmezhetőséget és izgalmas új alkalmazásokat tesznek lehetővé, mint például a vizuális asszisztens.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
üzleti Tudósítást Technológia
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
May 3, 2024
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
piacok Tudósítást Technológia
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
May 3, 2024
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
piacok Tudósítást Technológia
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
May 3, 2024
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
üzleti Tudósítást Technológia
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
May 3, 2024
CRYPTOMERIA LABS PTE. KFT.