A Microsoft introduziu o modelo de linguagem multimodal Otter para compreensão visual com base no conjunto de dados de texto visual massivo MIMIC-IT
Em Breve
Otter é um modelo de linguagem visual (VLM) construído na plataforma OpenFlamingo, projetado para revolucionar a compreensão visual e interagir com o conteúdo visual.
Lontra é um modelo de linguagem visual (VLM) de ponta construído sobre o OpenFlamingoGenericName plataforma, e está definido para melhorar a forma como interagimos com o conteúdo visual. Como parte do ambicioso projeto Otter, a Microsoft introduziu um enorme conjunto de dados de texto visual instrutivo chamado MIMIC-TI. Este conjunto de dados contém impressionantes 2.8 milhões de pares de instruções multimodais vinculadas com respostas, incluindo 2.2 milhões de instruções exclusivas derivadas de imagens e vídeos. O conjunto de dados foi meticulosamente selecionado para simular diálogos naturais, abrangendo cenários como descrições de imagens e vídeos, comparações de imagens, respostas a perguntas, compreensão de cenas e muito mais. Esses pares instrução-resposta de alta qualidade foram gerados usando o poderoso ChatGPT-0301 API, representando um investimento de aproximadamente $ 20k.
O conjunto de dados MIMIC-IT desempenha um papel crucial no treinamento do modelo Otter, que foi projetado para se destacar na compreensão de cenas visuais, raciocínio e conclusões lógicas. Cada par instrução-resposta no conjunto de dados é acompanhado por informações multimodais no contexto, criando contextos de conversação que capacitam o modelo a compreender as nuances de percepção, raciocínio e planejamento. Para dimensionar o processo de anotação, a Microsoft empregou um pipeline de anotação automática chamado Syphus, que combina experiência humana com os recursos de GPT para garantir a qualidade e a diversidade do conjunto de dados.
Usando o conjunto de dados MIMIC-IT, a Microsoft treinou o modelo Otter, um VLM de grande escala baseado na plataforma OpenFlamingo. Por meio de extensas avaliações em benchmarks de linguagem de visão, Otter demonstrou proficiência notável em percepção multimodal, raciocínio e aprendizado em contexto. As avaliações humanas revelaram sua capacidade de se alinhar efetivamente às intenções do usuário, tornando-se uma ferramenta inestimável para interpretar e executar tarefas complexas com base em instruções de linguagem natural.
Otter v0.2 expandiu seus recursos para suportar entradas de vídeo, permitindo quadros de processo e várias imagens como exemplos de contexto.
O lançamento do conjunto de dados MIMIC-IT, juntamente com o pipeline de coleta de instrução-resposta, benchmarks e o modelo Otter, representa um marco significativo no campo do processamento de linguagem multimodal. Ao disponibilizar esses recursos para pesquisadores e desenvolvedores, a Microsoft visa promover a inovação e a colaboração, permitindo a integração do Otter e do OpenFlamingo em pipelines personalizados de treinamento e inferência usando o popular Abraçando o rosto Estrutura dos transformadores.
O conjunto de dados MIMIC-IT abrange uma ampla gama de cenários da vida real, capacitando modelos de linguagem de visão (VLMs) para compreender cenas gerais, raciocinar sobre o contexto e diferenciar de forma inteligente entre as observações. Isso abre possibilidades, como o desenvolvimento de modelos de assistentes visuais egocêntricos que podem responder a perguntas como: “Ei, você acha que deixei minhas chaves na mesa?”.
O MIMIC-IT não está limitado ao idioma inglês. Ele também suporta vários idiomas, incluindo chinês, coreano, japonês, alemão, francês, espanhol e árabe. Esse suporte multilíngue permite que um público global maior se beneficie da conveniência e dos avanços trazidos pela IA.
Para garantir a geração de pares instrução-resposta de alta qualidade, Microsoft introduziu o Syphus, um pipeline automatizado que incorpora mensagens do sistema, anotações visuais e exemplos de contexto como prompts para ChatGPT. Isso garante a confiabilidade e a precisão dos pares instrução-resposta gerados em vários idiomas.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.