Relatório de notícias Tecnologia
12 de Junho de 2023

A Microsoft introduziu o modelo de linguagem multimodal Otter para compreensão visual com base no conjunto de dados de texto visual massivo MIMIC-IT

Em Breve

Otter é um modelo de linguagem visual (VLM) construído na plataforma OpenFlamingo, projetado para revolucionar a compreensão visual e interagir com o conteúdo visual.

Lontra é um modelo de linguagem visual (VLM) de ponta construído sobre o OpenFlamingoGenericName plataforma, e está definido para melhorar a forma como interagimos com o conteúdo visual. Como parte do ambicioso projeto Otter, a Microsoft introduziu um enorme conjunto de dados de texto visual instrutivo chamado MIMIC-TI. Este conjunto de dados contém impressionantes 2.8 milhões de pares de instruções multimodais vinculadas com respostas, incluindo 2.2 milhões de instruções exclusivas derivadas de imagens e vídeos. O conjunto de dados foi meticulosamente selecionado para simular diálogos naturais, abrangendo cenários como descrições de imagens e vídeos, comparações de imagens, respostas a perguntas, compreensão de cenas e muito mais. Esses pares instrução-resposta de alta qualidade foram gerados usando o poderoso ChatGPT-0301 API, representando um investimento de aproximadamente $ 20k.

A Microsoft introduziu o modelo de linguagem multimodal Otter para compreensão visual com base no conjunto de dados de texto visual massivo MIMIC-IT

O conjunto de dados MIMIC-IT desempenha um papel crucial no treinamento do modelo Otter, que foi projetado para se destacar na compreensão de cenas visuais, raciocínio e conclusões lógicas. Cada par instrução-resposta no conjunto de dados é acompanhado por informações multimodais no contexto, criando contextos de conversação que capacitam o modelo a compreender as nuances de percepção, raciocínio e planejamento. Para dimensionar o processo de anotação, a Microsoft empregou um pipeline de anotação automática chamado Syphus, que combina experiência humana com os recursos de GPT para garantir a qualidade e a diversidade do conjunto de dados.

A Microsoft introduziu o modelo de linguagem multimodal Otter para compreensão visual com base no conjunto de dados de texto visual massivo MIMIC-IT

Usando o conjunto de dados MIMIC-IT, a Microsoft treinou o modelo Otter, um VLM de grande escala baseado na plataforma OpenFlamingo. Por meio de extensas avaliações em benchmarks de linguagem de visão, Otter demonstrou proficiência notável em percepção multimodal, raciocínio e aprendizado em contexto. As avaliações humanas revelaram sua capacidade de se alinhar efetivamente às intenções do usuário, tornando-se uma ferramenta inestimável para interpretar e executar tarefas complexas com base em instruções de linguagem natural.

Otter v0.2 expandiu seus recursos para suportar entradas de vídeo, permitindo quadros de processo e várias imagens como exemplos de contexto.

O lançamento do conjunto de dados MIMIC-IT, juntamente com o pipeline de coleta de instrução-resposta, benchmarks e o modelo Otter, representa um marco significativo no campo do processamento de linguagem multimodal. Ao disponibilizar esses recursos para pesquisadores e desenvolvedores, a Microsoft visa promover a inovação e a colaboração, permitindo a integração do Otter e do OpenFlamingo em pipelines personalizados de treinamento e inferência usando o popular Abraçando o rosto Estrutura dos transformadores.

O conjunto de dados MIMIC-IT abrange uma ampla gama de cenários da vida real, capacitando modelos de linguagem de visão (VLMs) para compreender cenas gerais, raciocinar sobre o contexto e diferenciar de forma inteligente entre as observações. Isso abre possibilidades, como o desenvolvimento de modelos de assistentes visuais egocêntricos que podem responder a perguntas como: “Ei, você acha que deixei minhas chaves na mesa?”.

O MIMIC-IT não está limitado ao idioma inglês. Ele também suporta vários idiomas, incluindo chinês, coreano, japonês, alemão, francês, espanhol e árabe. Esse suporte multilíngue permite que um público global maior se beneficie da conveniência e dos avanços trazidos pela IA.

Para garantir a geração de pares instrução-resposta de alta qualidade, Microsoft introduziu o Syphus, um pipeline automatizado que incorpora mensagens do sistema, anotações visuais e exemplos de contexto como prompts para ChatGPT. Isso garante a confiabilidade e a precisão dos pares instrução-resposta gerados em vários idiomas.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Notcoin planeja distribuir 5% de seu fornecimento de tokens para 500,000 membros da comunidade e usuários de exchanges de criptomoedas
Mercados Relatório de notícias Tecnologia
Notcoin planeja distribuir 5% de seu fornecimento de tokens para 500,000 membros da comunidade e usuários de exchanges de criptomoedas
13 de maio de 2024
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
O negócio Mercados Histórias e resenhas Tecnologia
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
10 de maio de 2024
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
Mercados Relatório de notícias Tecnologia
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
10 de maio de 2024
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
Mercados Segurança Wiki Software Histórias e resenhas Tecnologia
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
10 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.