Informe de notícies Tecnologia
Pot 29, 2023

Google va ensenyar al model d'IA Flamingo a escriure descripcions per a vídeos de YouTube

En breu

Flamingo soluciona el problema dels vídeos curts que són difícils de trobar mitjançant la cerca creant descripcions automàticament.

Google DeepMind, el laboratori d'investigació d'IA, ho té desenvolupat un model de llenguatge visual anomenat Flamingo capaç d'escriure descripcions de vídeos curts a YouTube. El problema que aborda Flamingo és que sovint els vídeos curts són difícils de localitzar mitjançant la cerca a causa de la manca d'informació necessària a la descripció. El model Flamingo soluciona aquest problema generant automàticament textos per a milions de clips de vídeo curts en llocs d'allotjament de vídeos, que s'utilitzen "darrere de l'escenari" per permetre una cerca fàcil. Tot i que els autors del vídeo no veuran les metadades, ajuda els espectadors a trobar i navegar pels curts. Actualment, Flamingo fa temps que treballa en nous clips i processa vídeos antics penjats a YouTube.

Google va ensenyar al model d'IA Flamingo a escriure descripcions per a vídeos de YouTube
deepmind.com

En el passat, Google va introduir un algorisme que permet a la gent cercar informació dins dels vídeos mitjançant la barra de cerca. Recentment, TwelveLabs va recaptar 12 milions de dòlars d'inversors per a un desenvolupament similar. Aquestes eines creen noves oportunitats per al vídeo creadors de contingut per augmentar el seu abast i visibilitat. Aprofitant la IA per millorar i simplificar el procés de cerca i el descobriment de contingut de format breu, DeepMind i startups similars estan revolucionant el vídeo Serveis de transmissió. Contribueixen al desenvolupament de tecnologies de cerca més intel·ligents i eficients, fent que els espectadors trobin encara més fàcilment el contingut que realment els interessa.

La intel·ligència artificial està jugant un paper important en l'actualització de les tecnologies de cerca. Aprofitant la IA, el model Flamingo pot escanejar i serialitzar el contingut i generar textos que resumeixen el contingut per ajudar els usuaris a navegar. El model Flamingo utilitza xarxes neuronals profundes per generar descripcions textuals d'un videoclip basant-se en el contingut d'àudio i visual del vídeo. Pot capturar els components auditius i visuals del contingut breu i transformar-los en un resum que sigui fàcil de cercar i accedir als usuaris.

L'ús de l'IA pot ajudar a identificar informació important per als usuaris, que es pot perdre en els esforços manuals dels creadors mentre afegeixen descripcions. L'esforç que requereix molt de temps per capturar manualment tots els detalls no sempre és pràctic, especialment amb el flux constant de contingut de vídeo de format breu penjat a plataformes com YouTube. Això pot provocar confusió i frustració de l'usuari quan cerqueu contingut específic de format breu. No obstant això, amb l'ús de models de llenguatge visual, com ara Flamingo, les metadades es poden generar automàticament per proporcionar un resum per a un fàcil accés, estalviant així temps i fent que el procés de cerca sigui més eficient i precís.

Flamingo estableix nous models de llenguatge visual d'última generació per a tasques obertes

Els detalls més importants són la introducció de Flamingo, un model de llenguatge visual únic (VLM) que estableix un nou estat de l'art en l'aprenentatge de pocs passos en una àmplia gamma de tasques multimodals obertes. Flamingo és un model de llenguatge visual únic (VLM) que redefiNecessitat d'un aprenentatge de pocs cops a través d'una àmplia gamma d'activitats multimodals obertes. Rep a Prompt que consisteix en imatges, vídeos i text intercalats com a entrada i sortida de l'idioma associat. La interfície visual i de text de Flamingo, com les dels grans models de llenguatge (LLM), pot conduir el model a assolir un objectiu multimodal. Es pot fer una pregunta al model amb una imatge o un vídeo nou i després construir una resposta, donant alguns exemples de parells d'entrades visuals i respostes de text esperades compostes a l'indicador de Flamingo.

Flamingo és un model de llenguatge visual que fusiona grans models de llenguatge amb representacions visuals potents i s'entrena en una barreja de dades multimodals complementàries a gran escala que només provenen del web sense utilitzar cap dada anotada per a finalitats d'aprenentatge automàtic. Supera tots els enfocaments d'aprenentatge de pocs cops anteriors quan es donen només quatre exemples per tasca i supera els mètodes que s'ajusten i s'optimitzen per a cada tasca de manera independent i utilitzen múltiples ordres de magnitud més dades específiques de la tasca. També va provar les capacitats qualitatives del model més enllà dels seus punts de referència actuals, com ara subtitular imatges relacionades amb el gènere i el color de la pell i executar els subtítols generats a través de l'API Perspective de Google, que avalua la toxicitat del text. Flamingo permet adaptar-se de manera eficaç a aquests exemples i altres tasques sobre la marxa sense modificar el model i demostra capacitats de diàleg multimodal fora de la caixa.

Flamingo és una família de models de propòsit general que es poden aplicar a tasques de comprensió d'imatges i vídeos amb exemples mínims específics de tasques. És una família de models de propòsit general eficaç i eficient que es pot aplicar a tasques de comprensió d'imatges i vídeos amb exemples mínims específics per a tasques. Les habilitats de Flamingo obren el camí cap a interaccions riques amb models de llenguatge visual apresos que poden permetre una millor interpretabilitat i noves aplicacions interessants, com ara un assistent visual.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Negocis Informe de notícies Tecnologia
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Pot 3, 2024
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
mercats Informe de notícies Tecnologia
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
Pot 3, 2024
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
mercats Informe de notícies Tecnologia
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
Pot 3, 2024
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Negocis Informe de notícies Tecnologia
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Pot 3, 2024
CRYPTOMERIA LABS PTE. LTD.