OpenFlamingo: uma nova estrutura de imagem para texto de código aberto da Meta AI e LAION
Em Breve
OpenFlamingo é uma versão de código aberto do modelo Flamingo da DeepMind, construído sobre o LLaMA modelo de linguagem grande.
Os desenvolvedores esperam criar um sistema multimodal que possa lidar com desafios de visão-linguagem e igualdade GPT-4a força e adaptabilidade da empresa no tratamento de entradas visuais e de texto.
A versão de código aberto do modelo Flamingo da DeepMind, OpenFlamingoGenericName, acaba de ser lançado. OpenFlamingo é fundamentalmente uma estrutura que permite o treinamento e avaliação de modelos multimodais (LMMs) de tamanho considerável. OpenFlamingo é construído sobre o LLaMA modelo de linguagem grande desenvolvido pela Meta AI.
As contribuições dos desenvolvedores para esta primeira versão são as seguintes:
- Um conjunto de dados multimodal considerável que combina texto e sequências visuais.
- Uma referência para avaliação de aprendizagem em contexto para atividades que incluem visão e linguagem.
- Uma versão preliminar do nosso LLaMAmodelo OpenFlamingo-9B baseado em .
Através do OpenFlamingo, os desenvolvedores esperam criar um sistema multimodal que possa lidar com uma variedade de desafios de linguagem visual. O objetivo final é igualar GPT-4a força e adaptabilidade da empresa no tratamento de entradas visuais e de texto. Os desenvolvedores estão desenvolvendo uma versão de código aberto do modelo Flamingo da DeepMind, um LMM capaz de processar e raciocinar sobre imagens, vídeos e texto, para atingir esse objetivo. Os desenvolvedores dedicam-se ao desenvolvimento de modelos inteiramente de código aberto porque pensam que a transparência é crucial para promover a cooperação, acelerar o desenvolvimento e democratizar o acesso a LMMs de ponta.
Eles estão fornecendo o ponto de verificação inicial do nosso modelo OpenFlamingo-9B. Embora o modelo ainda não esteja totalmente otimizado, ele mostra a promessa do projeto. Os desenvolvedores podem treinar melhores LMMs cooperando e obtendo feedback da comunidade. Eles convidam o público a contribuir e adicionar ao repositório para participar do processo de desenvolvimento.
A implementação é muito parecida com a do Flamingo. Os modelos do Flamingo devem ser treinados em conjuntos de dados da web em larga escala com texto intercalado e gráficos para equipá-los com habilidades de aprendizagem de poucos tiros no contexto. A mesma arquitetura sugerida no estudo original do Flamingo (resamplers do Perceiver, camadas de atenção cruzada) é implementada no OpenFlamingo. Mas, como os dados de treinamento do Flamingo não são acessíveis ao público em geral, os desenvolvedores usam conjuntos de dados de código aberto para treinar modelos. O ponto de verificação OpenFlamingo-9B recém-publicado foi especificamente treinado em amostras de 10M de LAION-2B e amostras de 5M do novo conjunto de dados Multimodal C4.
Os desenvolvedores também estão incluindo um ponto de verificação do nosso inacabado LMM OpenFlamingo-9B, que é baseado em LLaMA 7B e CLIP ViT/L-14, como parte do lançamento. Embora este conceito ainda esteja em desenvolvimento, a comunidade já pode beneficiar muito com ele.
Para começar, veja o GitHub fonte e demonstração.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.