Relatório de notícias Inovadora
28 de janeiro de 2026

O Google revela a visão agética no Gemini 3 Flash, combinando raciocínio visual com execução de código.

Em Breve

O Google introduziu o Agentic Vision no Gemini 3 Flash, permitindo que o modelo combine raciocínio visual com execução de código para análise de imagens interativa e baseada em evidências.

O Google revela a visão agética no Gemini 3 Flash, combinando raciocínio visual com execução de código.

Empresa de tecnologia Google revelou o recurso Agent Vision em Gêmeos 3 Flash, uma ferramenta projetada para integrar o raciocínio visual à execução de código, permitindo que o modelo baseie suas respostas em evidências visuais.

O sistema Agentic Vision transforma a análise de imagens de uma interpretação estática em um processo ativo e investigativo. Combinando raciocínio visual com código executável, o modelo pode desenvolver planos passo a passo para examinar e manipular imagens, como ampliar, recortar, girar, anotar ou realizar cálculos, com o objetivo de fundamentar as respostas diretamente em dados visuais.

Foi demonstrado que a incorporação da execução de código no Gemini 3 Flash melhora o desempenho na maioria dos benchmarks de visão computacional em 5 a 10%, oferecendo uma melhoria mensurável em tarefas de compreensão de imagens.

O recurso opera por meio de um ciclo estruturado de Pensar, Agir e Observar. Durante a fase de Pensar, o modelo avalia a consulta do usuário juntamente com a imagem inicial e formula um plano de várias etapas. Na fase de Agir, ele gera e executa código Python para manipular ou analisar a imagem. Finalmente, na fase de Observar, a imagem modificada é adicionada à janela de contexto do modelo, permitindo que o sistema reavalie as informações visuais antes de produzir uma resposta final.

Ao permitir a execução de código por meio de sua API, o Gemini 3 Flash desbloqueia uma série de comportamentos avançados, muitos dos quais são demonstrados no aplicativo de demonstração disponível no Google AI Studio. Desenvolvedores, desde grandes plataformas como o aplicativo Gemini até startups menores, começaram a aproveitar essa funcionalidade para dar suporte a diversos casos de uso em análise de imagens, anotação e computação visual.

Uma das aplicações envolve a inspeção detalhada de imagens. Gemini 3. O Flash pode ampliar automaticamente detalhes minuciosos, permitindo a análise iterativa de entradas de alta resolução. Por exemplo, o PlanCheckSolver.com, uma plataforma de validação de plantas de construção baseada em IA, relatou um aumento de 5% na precisão ao usar a execução de código para examinar seções específicas de plantas arquitetônicas, como bordas de telhado ou layouts de edifícios. O modelo gera código Python para recortar e analisar essas áreas e as reintegra à sua janela de contexto, fundamentando suas conclusões em evidências visuais precisas.

Outro caso de uso é a anotação de imagens. O Agentic Vision permite que o modelo interaja com o conteúdo visual desenhando diretamente nas imagens. Em tarefas como contar os dedos de uma mão, o modelo pode sobrepor caixas delimitadoras e rótulos numéricos em cada dedo detectado, criando um "bloco de rascunho visual" que garante que seu raciocínio esteja totalmente alinhado com os pixels observados.

O sistema também oferece suporte a matemática visual e visualização de dados. O Gemini 3 Flash pode extrair dados de tabelas complexas e executar código Python para gerar gráficos ou realizar cálculos. Ao contrário dos modelos de linguagem padrão, que podem apresentar erros em cálculos aritméticos de múltiplas etapas, o Gemini 3 Flash executa código Python determinístico para normalizar os dados e produzir resultados visuais precisos, como gráficos de barras profissionais do Matplotlib, substituindo palpites probabilísticos por resultados verificáveis.

Visão Agencial: Novas Ferramentas, Acesso Mais Amplo e Disponibilidade de APIs

O Google continua a expandir as capacidades do Agentic Vision no Gemini 3 Flash. Atualmente, o modelo consegue determinar automaticamente quando ampliar detalhes minuciosos, embora outras funções, como rotacionar imagens ou realizar cálculos visuais, ainda exijam comandos explícitos. As atualizações futuras visam tornar esses comportamentos totalmente implícitos.

A empresa também está explorando a adição de novas ferramentas para os modelos Gemini, incluindo busca na web e busca reversa de imagens, para aprimorar ainda mais a capacidade do sistema de fundamentar suas respostas em informações do mundo real. Há planos em andamento para estender o Agentic Vision a tamanhos de modelo adicionais além da variante Flash, ampliando o acesso à tecnologia.

O Agentic Vision já está disponível através da API Gemini no Google AI Studio e no Vertex AI, e está sendo implementado gradualmente no aplicativo Gemini, onde os usuários podem acessá-lo selecionando "Thinking" no menu suspenso de modelos. Os desenvolvedores podem experimentar a funcionalidade usando a demonstração no Google AI Studio ou ativando a "Execução de Código" no AI Studio Playground.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.

Mais artigos
Alice Davidson
Alice Davidson

Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

A Calmaria Antes da Tempestade de Solana: O Que os Gráficos, Baleias e Sinais On-Chain Estão Dizendo Agora

Solana demonstrou um forte desempenho, impulsionado pela crescente adoção, interesse institucional e parcerias importantes, ao mesmo tempo em que enfrenta potenciais...

Saber Mais

Criptomoedas em abril de 2025: Principais tendências, mudanças e o que vem a seguir

Em abril de 2025, o espaço criptográfico se concentrou no fortalecimento da infraestrutura principal, com o Ethereum se preparando para o Pectra...

Saber Mais
Saiba Mais
Ler mais
Por dentro da HSC Asset Management Hong Kong 2026: Conheça os pesos-pesados ​​institucionais.defiCriptomoedas, Mercados de Capitais e Tokenização
Temporadas de hackers Estilo de vida Relatório de notícias Inovadora
Por dentro da HSC Asset Management Hong Kong 2026: Conheça os pesos-pesados ​​institucionais.defiCriptomoedas, Mercados de Capitais e Tokenização
21 de abril de 2026
A plataforma CX Enterprise da Adobe impulsiona a IA ativa, enquanto analistas avaliam a inovação em relação aos riscos de governança.
Relatório de notícias Inovadora
A plataforma CX Enterprise da Adobe impulsiona a IA ativa, enquanto analistas avaliam a inovação em relação aos riscos de governança.
21 de abril de 2026
A Bitget lança o Ulysses para acelerar os esforços de reengajamento e integração institucional.
Relatório de notícias Inovadora
A Bitget lança o Ulysses para acelerar os esforços de reengajamento e integração institucional.
21 de abril de 2026
Porque Web3 Ainda enfrenta dificuldades para alcançar a adoção em massa.
Temporadas de hackers Entrevista Estilo de vida
Porque Web3 Ainda enfrenta dificuldades para alcançar a adoção em massa.
21 de abril de 2026
CRYPTOMERIA LABS PTE. LTDA.