Relatório de notícias SMW Tecnologia
24 de abril de 2023

MiniGPT-4: O novo modelo de IA para descrições complexas de imagens

Em Breve

MiniGPT-4 é um modelo de IA que combina processamento visual com compreensão da linguagem.

Ele usa um codificador visual congelado chamado Vicuna e GPT-4, o mais recente Large Language Model da OpenAI.

MiniGPT-4 pode gerar descrições precisas de imagens, escrever textos baseados em imagens, fornecer soluções para problemas representados em imagens e até mesmo ensinar aos usuários como fazer certas coisas com base em fotos.

Compreender como interpretar e descrever o conteúdo visual é essencial para uma ampla gama de aplicações, desde e-commerce até mídias sociais. Digitar MiniGPT-4, o mais recente modelo de IA que combina o poder do processamento visual com a compreensão de linguagem de ponta. 

MiniGPT-4 emprega um codificador visual congelado e um grande modelo de linguagem, conectado por meio de uma única camada de projeção, para gerar descrições precisas de imagens, escrever histórias e poemas baseados em imagens, fornecer soluções para problemas retratados em imagens e até mesmo ensinar aos usuários como cozinhar com base em alimentos fotos. 

MiniGPT-4: O novo modelo de IA para descrições complexas de imagens
através do MiniGPT-4

O modelo é altamente eficiente, exigindo apenas o alinhamento de 5 milhões de pares imagem-texto para treinar a camada linear que alinha recursos visuais com o modelo de linguagem grande congelado, Vicuna. 

Vicuna é construída sobre LLaMA e pode realizar tarefas linguísticas complexas. GPT-4, o mais recente Large Language Model da OpenAI, alimenta o MiniGPT-4. A natureza multimodal da GPT-4 o diferencia de seus antecessores, tornando-o adequado para diversas aplicações, incluindo videogames, Extensões do Chromee questões de raciocínio complexo.

MiniGPT-4 mostrou habilidades semelhantes às GPT-4, como gerar descrições detalhadas de imagens e criar sites a partir de rascunhos escritos à mão. Para melhorar a saída de linguagem do modelo, um conjunto de dados melhor foi selecionado para ajustes adicionais usando um modelo de conversação. Isso resultou em uma melhor geração de linguagem com maior confiabilidade e usabilidade geral.

As capacidades excepcionais do modelo decorrem de sua processo de treinamento em duas etapas, que permite MiniGPT para gerar descrições de imagens precisas e em linguagem natural. Durante a primeira etapa, MiniGPT-4 é treinado em milhões de pares imagem-texto, conforme mencionado acima, permitindo aprender sobre objetos, pessoas e lugares e descrevê-los em palavras. Este pré-treinamento leva cerca de 10 horas e requer quatro GPUs A100 (80 GB). A saída deste estágio é gerada pelo transformador de visão com base na imagem de entrada.

No entanto, a primeira fase do pré-treinamento pode produzir resultados sem coerência, como frases repetitivas, frases fragmentadas ou conteúdo irrelevante. Para resolver esse problema, MiniGPT-4 passa por um segundo estágio de treinamento, onde um conjunto de dados menor, mas de alta qualidade, de pares imagem-texto é usado para ajustar as descrições de texto do modelo para serem mais precisas e naturais.

Desde a geração de layouts de sites até o fornecimento de soluções para problemas representados em imagens, o MiniGPT-4 é um avanço impressionante no mundo da IA ​​e é apenas o começo.

Leia mais:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Agne é uma jornalista que cobre as últimas tendências e desenvolvimentos no metaverso, IA e Web3 indústrias para o Metaverse Post. Sua paixão por contar histórias a levou a realizar inúmeras entrevistas com especialistas nessas áreas, sempre buscando descobrir histórias emocionantes e envolventes. Agne é bacharel em literatura e possui ampla experiência em redação sobre uma ampla variedade de tópicos, incluindo viagens, arte e cultura. Ela também foi voluntária como editora da organização de direitos dos animais, onde ajudou a aumentar a conscientização sobre questões de bem-estar animal. Entre em contato com ela [email protegido].

Mais artigos
Agne Cimerman
Agne Cimerman

Agne é uma jornalista que cobre as últimas tendências e desenvolvimentos no metaverso, IA e Web3 indústrias para o Metaverse Post. Sua paixão por contar histórias a levou a realizar inúmeras entrevistas com especialistas nessas áreas, sempre buscando descobrir histórias emocionantes e envolventes. Agne é bacharel em literatura e possui ampla experiência em redação sobre uma ampla variedade de tópicos, incluindo viagens, arte e cultura. Ela também foi voluntária como editora da organização de direitos dos animais, onde ajudou a aumentar a conscientização sobre questões de bem-estar animal. Entre em contato com ela [email protegido].

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Espresso Systems colabora com Polygon Labs para desenvolver AggLayer para melhorar a interoperabilidade de rollup
O negócio Relatório de notícias Tecnologia
Espresso Systems colabora com Polygon Labs para desenvolver AggLayer para melhorar a interoperabilidade de rollup
9 de maio de 2024
Protocolo de infraestrutura baseado em ZKP ZKBase revela roteiro e planeja lançamento de testnet em maio
Relatório de notícias Tecnologia
Protocolo de infraestrutura baseado em ZKP ZKBase revela roteiro e planeja lançamento de testnet em maio
9 de maio de 2024
BLOCKCHANCE e CONF3RENCE unem-se para o maior da Alemanha Web3 Conferência em Dortmund
O negócio Mercados Software Histórias e resenhas Tecnologia
BLOCKCHANCE e CONF3RENCE unem-se para o maior da Alemanha Web3 Conferência em Dortmund
9 de maio de 2024
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
Mercados Relatório de notícias Tecnologia
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
9 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.