Relatório de notícias Equipar
29 de maio de 2023

O Google ensinou o modelo de IA Flamingo a escrever descrições para vídeos do YouTube

Em Breve

O Flamingo resolve o problema da dificuldade de encontrar vídeos curtos por meio da pesquisa, criando descrições automaticamente.

O Google DeepMind, o laboratório de pesquisa de IA, desenvolvido um modelo de linguagem visual chamado Flamingo capaz de escrever descrições para vídeos curtos no YouTube. O problema que o Flamingo aborda é que vídeos curtos geralmente são difíceis de localizar por meio de pesquisa devido à falta de informações necessárias na descrição. O modelo Flamingo resolve esse problema gerando automaticamente textos para milhões de videoclipes curtos em sites de hospedagem de vídeo, que são usados ​​“nos bastidores” para facilitar a pesquisa. Embora os autores do vídeo não vejam os metadados, eles ajudam os espectadores a encontrar e navegar pelos curtas. Atualmente, o Flamingo trabalha há muito tempo em novos clipes e processa vídeos mais antigos enviados ao YouTube.

O Google ensinou o modelo de IA Flamingo a escrever descrições para vídeos do YouTube
deepmind. com

No passado, o Google introduziu um algoritmo que permite que as pessoas pesquisem informações dentro de vídeos usando a barra de pesquisa. Recentemente, a TwelveLabs levantou US$ 12 milhões de investidores para um desenvolvimento semelhante. Essas ferramentas criam novas oportunidades para vídeos criadores de conteúdo para aumentar seu alcance e visibilidade. Ao aproveitar a IA para melhorar e simplificar o processo de pesquisa e descoberta de conteúdo de formato curto, a DeepMind e startups semelhantes estão revolucionando o vídeo Serviços de transmissão. Eles estão contribuindo para o desenvolvimento de tecnologias de busca mais inteligentes e eficientes, tornando ainda mais simples para o telespectador encontrar conteúdos que realmente lhe interessem.

A inteligência artificial está desempenhando um papel significativo na atualização das tecnologias de pesquisa. Aproveitando a IA, o modelo Flamingo pode digitalizar e serializar o conteúdo e gerar textos que resumem o conteúdo para ajudar os usuários a navegar. O modelo Flamingo usa redes neurais profundas para gerar descrições textuais de um videoclipe com base no conteúdo visual e de áudio do vídeo. Ele pode capturar os componentes auditivos e visuais do conteúdo de formato curto e transformá-los em um resumo fácil de pesquisar e acessar pelos usuários.

O uso de IA pode ajudar a identificar informações importantes para os usuários, que podem ser perdidas nos esforços manuais dos criadores ao adicionar descrições. O esforço demorado para capturar manualmente todos os detalhes nem sempre é prático, especialmente com o fluxo constante de conteúdo de vídeo curto carregado em plataformas como o YouTube. Isso pode levar à confusão e frustração do usuário ao pesquisar conteúdo específico de formato curto. No entanto, com o uso de modelos de linguagem visual, como o Flamingo, os metadados podem ser gerados automaticamente para fornecer um resumo de fácil acesso, economizando tempo e tornando o processo de pesquisa mais eficiente e preciso.

Flamingo define novos modelos de linguagem visual de última geração para tarefas abertas

Os detalhes mais importantes são a introdução do Flamingo, um modelo de linguagem visual único (VLM) que define um novo estado da arte no aprendizado de poucos tiros em uma ampla gama de tarefas multimodais abertas. Flamingo é um modelo de linguagem visual única (VLM) que redefines aprendizagem de poucos tiros em uma ampla gama de atividades multimodais abertas. Ele recebe um pronto consistindo em imagens intercaladas, vídeos e texto como entrada e saída do idioma associado. A interface visual e de texto do Flamingo, como as de grandes modelos de linguagem (LLMs), pode levar o modelo a atingir uma meta multimodal. O modelo pode fazer uma pergunta com uma nova imagem ou vídeo e, em seguida, construir uma resposta, dados alguns exemplos de pares de entradas visuais e respostas de texto esperadas compostas no prompt do Flamingo.

O Flamingo é um modelo de linguagem visual que funde grandes modelos de linguagem com representações visuais poderosas e é treinado em uma mistura de dados multimodais complementares de grande escala provenientes apenas da Web, sem o uso de dados anotados para fins de aprendizado de máquina. Ele supera todas as abordagens anteriores de aprendizado de poucos tiros quando fornece apenas quatro exemplos por tarefa e supera os métodos que são ajustados e otimizados para cada tarefa independentemente e usam várias ordens de magnitude mais dados específicos da tarefa. Ele também testou os recursos qualitativos do modelo além de seus benchmarks atuais, como legendar imagens relacionadas a gênero e cor da pele e executar as legendas geradas por meio da API Perspective do Google, que avalia a toxicidade do texto. O Flamingo possibilita uma adaptação eficiente a esses exemplos e outras tarefas em tempo real sem modificar o modelo e demonstra recursos de diálogo multimodal prontos para uso.

O Flamingo é uma família de modelos de uso geral que pode ser aplicada a tarefas de compreensão de imagem e vídeo com exemplos mínimos de tarefas específicas. É uma família de modelos de propósito geral eficaz e eficiente que pode ser aplicada a tarefas de compreensão de imagem e vídeo com exemplos mínimos de tarefas específicas. As habilidades do Flamingo abrem caminho para interações ricas com modelos de linguagem visual aprendidos que podem permitir melhor interpretabilidade e novos aplicativos interessantes, como um assistente visual.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
O negócio Relatório de notícias Equipar
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
3 de maio de 2024
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
Mercados Relatório de notícias Equipar
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
3 de maio de 2024
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
Mercados Relatório de notícias Equipar
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
3 de maio de 2024
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
O negócio Relatório de notícias Equipar
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
3 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.