29 Maggio 2023

Google ha insegnato al modello AI Flamingo a scrivere descrizioni per i video di YouTube

Pubblicato: 29 maggio 2023 alle 2:00 Aggiornato: 29 maggio 2023 alle 10:55

Modificato e verificato: 29 maggio 2023 alle 2:00

In Breve

Flamingo risolve il problema dei video brevi che sono difficili da trovare attraverso la ricerca creando automaticamente descrizioni.

Google DeepMind, il laboratorio di ricerca sull'intelligenza artificiale, ha sviluppato un modello di linguaggio visivo chiamato Flamingo in grado di scrivere descrizioni per brevi video su YouTube. Il problema che Flamingo affronta è che i video brevi sono spesso difficili da individuare tramite la ricerca a causa della mancanza delle informazioni necessarie nella descrizione. Il modello Flamingo risolve questo problema generando automaticamente testi per milioni di brevi clip video su siti di hosting video, che vengono utilizzati "dietro le quinte" per consentire una facile ricerca. Sebbene gli autori del video non vedranno i metadati, aiuta gli spettatori a trovare e navigare nei cortometraggi. Attualmente, Flamingo ha lavorato a lungo su nuovi clip e sull'elaborazione di vecchi video caricati su YouTube.

Google ha insegnato al modello AI Flamingo a scrivere descrizioni per i video di YouTube — deepmind.com

In passato, Google ha introdotto un algoritmo che consente alle persone di cercare informazioni all'interno dei video utilizzando la barra di ricerca. Di recente, TwelveLabs ha raccolto 12 milioni di dollari dagli investitori per uno sviluppo simile. Questi strumenti creano nuove opportunità per i video creatori di contenuti per aumentare la loro portata e visibilità. Sfruttando l'intelligenza artificiale per migliorare e semplificare il processo di ricerca e la scoperta di contenuti brevi, DeepMind e startup simili stanno rivoluzionando i video servizi di streaming. Stanno contribuendo allo sviluppo di tecnologie di ricerca più intelligenti ed efficienti, rendendo ancora più semplice per gli spettatori trovare i contenuti che li interessano veramente.

L'intelligenza artificiale sta svolgendo un ruolo significativo nell'aggiornamento delle tecnologie di ricerca. Sfruttando l'intelligenza artificiale, il modello Flamingo può scansionare e serializzare il contenuto e generare testi che riassumono il contenuto per aiutare gli utenti a navigare. Il modello Flamingo utilizza reti neurali profonde per generare descrizioni testuali di un video clip in base al contenuto audio e visivo del video. Può acquisire le componenti uditive e visive di contenuti in forma abbreviata e trasformarle in un riepilogo facile da cercare e accedere agli utenti.

L'uso dell'intelligenza artificiale può aiutare a identificare informazioni importanti per gli utenti, che potrebbero perdersi negli sforzi manuali dei creatori durante l'aggiunta di descrizioni. Lo sforzo dispendioso in termini di tempo per acquisire manualmente ogni dettaglio non è sempre pratico, soprattutto con il flusso costante di contenuti video in formato breve caricati su piattaforme come YouTube. Ciò può portare a confusione e frustrazione dell'utente durante la ricerca di contenuti brevi specifici. Tuttavia, con l'uso di modelli di linguaggio visivo, come Flamingo, i metadati possono essere generati automaticamente per fornire un riepilogo di facile accesso, risparmiando così tempo e rendendo il processo di ricerca più efficiente e accurato.

Flamingo stabilisce nuovi modelli di linguaggio visivo all'avanguardia per attività a tempo indeterminato

I dettagli più importanti sono l'introduzione di Flamingo, un unico modello di linguaggio visivo (VLM) che stabilisce un nuovo stato dell'arte nell'apprendimento "low-shot" su un'ampia gamma di compiti multimodali aperti. Flamingo è un modello di linguaggio visivo singolo (VLM) che ridefiNecessario l’apprendimento “low-shot” in un’ampia gamma di attività multimodali aperte. Riceve a pronto costituito da immagini interlacciate, video e testo come input e output della lingua associata. L'interfaccia visiva e testuale di Flamingo, come quelle dei grandi modelli linguistici (LLM), può guidare il modello verso il raggiungimento di un obiettivo multimodale. Al modello può essere posta una domanda con una nuova immagine o video e quindi costruire una risposta, dati alcuni esempi di coppie di input visivi e risposte di testo previste composte nel prompt di Flamingo.

Flamingo è un modello di linguaggio visivo che fonde modelli di linguaggio di grandi dimensioni con potenti rappresentazioni visive ed è addestrato su una combinazione di dati multimodali su larga scala complementari provenienti solo dal Web senza utilizzare dati annotati per scopi di apprendimento automatico. Supera tutti i precedenti approcci di apprendimento di pochi colpi quando vengono forniti solo quattro esempi per attività e supera i metodi che sono messi a punto e ottimizzati per ogni attività in modo indipendente e utilizzano più ordini di grandezza più dati specifici dell'attività. Ha anche testato le capacità qualitative del modello oltre i suoi benchmark attuali, come le didascalie delle immagini relative al genere e al colore della pelle e l'esecuzione dei sottotitoli generati tramite l'API Perspective di Google, che valuta la tossicità del testo. Flamingo consente di adattarsi in modo efficiente a questi esempi e ad altri compiti al volo senza modificare il modello e dimostra capacità di dialogo multimodale pronte all'uso.

Flamingo è una famiglia di modelli generici che possono essere applicati ad attività di comprensione di immagini e video con esempi minimi specifici dell'attività. Si tratta di una famiglia di modelli generici efficace ed efficiente che può essere applicata alle attività di comprensione di immagini e video con esempi minimi specifici dell'attività. Le capacità di Flamingo aprono la strada a ricche interazioni con modelli di linguaggio visivo appresi che possono consentire una migliore interpretabilità e nuove entusiasmanti applicazioni, come un assistente visivo.

Per saperne di più sull'intelligenza artificiale:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov