Notizie Tecnologia
Gennaio 28, 2026

Google svela Agentic Vision in Gemini 3 Flash, che combina il ragionamento visivo con l'esecuzione del codice

In Breve

Google ha introdotto Agentic Vision in Gemini 3 Flash, consentendo al modello di combinare il ragionamento visivo con l'esecuzione di codice per un'analisi interattiva delle immagini basata su prove.

Google svela Agentic Vision in Gemini 3 Flash, che combina il ragionamento visivo con l'esecuzione del codice

Azienda tecnologica Google ha svelato la funzionalità Agentic Vision in Gemelli 3 Flash, uno strumento progettato per integrare il ragionamento visivo con l'esecuzione del codice, consentendo al modello di basare le sue risposte su prove visive.

Il sistema Agentic Vision trasforma l'analisi delle immagini da un'interpretazione statica a un processo investigativo attivo. Combinando il ragionamento visivo con codice eseguibile, il modello può sviluppare piani passo-passo per esaminare e manipolare le immagini, come zoom, ritaglio, rotazione, annotazione o esecuzione di calcoli, con l'obiettivo di basare le risposte direttamente sui dati visivi.

È stato dimostrato che l'integrazione dell'esecuzione del codice in Gemini 3 Flash migliora le prestazioni nella maggior parte dei benchmark di visione del 5-10%, offrendo un miglioramento misurabile nelle attività di comprensione delle immagini.

La funzionalità funziona attraverso un ciclo strutturato di "Pensa, Agisci, Osserva". Durante la fase di "Pensa", il modello valuta la query dell'utente insieme all'immagine iniziale e formula un piano in più fasi. Nella fase di "Agisci", genera ed esegue codice Python per manipolare o analizzare l'immagine. Infine, nella fase di "Osserva", l'immagine modificata viene aggiunta alla finestra di contesto del modello, consentendo al sistema di rivalutare le informazioni visive prima di produrre una risposta finale.

Abilitando l'esecuzione del codice tramite la sua API, Gemini 3 Flash sblocca una gamma di comportamenti avanzati, molti dei quali sono illustrati nell'applicazione demo disponibile su Google AI Studio. Gli sviluppatori, dalle principali piattaforme come l'app Gemini alle startup più piccole, hanno iniziato a sfruttare questa funzionalità per supportare diversi casi d'uso nell'analisi delle immagini, nell'annotazione e nel calcolo visivo.

Un'applicazione prevede l'ispezione dettagliata delle immagini. Gemini 3 Flash può ingrandire automaticamente le caratteristiche più dettagliate, consentendo un'analisi iterativa di input ad alta risoluzione. Ad esempio, PlanCheckSolver.com, una piattaforma di convalida delle planimetrie basata sull'intelligenza artificiale, ha riportato un aumento del 5% della precisione utilizzando l'esecuzione di codice per esaminare sezioni specifiche delle planimetrie architettoniche, come i bordi del tetto o le planimetrie degli edifici. Il modello genera codice Python per ritagliare e analizzare queste aree e le reintegra nella sua finestra di contesto, basando le sue conclusioni su prove visive precise.

Un altro caso d'uso è l'annotazione delle immagini. Agentic Vision consente al modello di interagire con i contenuti visivi disegnando direttamente sulle immagini. In attività come il conteggio delle dita di una mano, il modello può sovrapporre riquadri di delimitazione ed etichette numeriche su ogni dito rilevato, creando un "blocco note visivo" che garantisce che il ragionamento sia completamente allineato con i pixel osservati.

Il sistema supporta anche la matematica visiva e la visualizzazione dei dati. Gemini 3 Flash può estrarre dati da tabelle dense ed eseguire codice Python per generare grafici o eseguire calcoli. A differenza dei modelli di linguaggio standard che possono generare errori nell'aritmetica multi-step, Gemini 3 Flash esegue codice Python deterministico per normalizzare i dati e produrre output visivi accurati, come i grafici a barre professionali Matplotlib, sostituendo le ipotesi probabilistiche con risultati verificabili.

Agentic Vision: nuovi strumenti, accesso più ampio e disponibilità API

Google continua ad ampliare le funzionalità di Agentic Vision in Gemini 3 Flash. Attualmente, il modello è in grado di determinare automaticamente quando ingrandire i dettagli più fini, sebbene altre funzioni, come la rotazione delle immagini o l'esecuzione di calcoli visivi, richiedano ancora prompt espliciti. I futuri aggiornamenti mirano a rendere questi comportamenti completamente impliciti.

L'azienda sta inoltre valutando l'aggiunta di nuovi strumenti per i modelli Gemini, tra cui la ricerca web e la ricerca inversa di immagini, per migliorare ulteriormente la capacità del sistema di basare le sue risposte su informazioni del mondo reale. Sono in corso piani per estendere Agentic Vision a modelli di dimensioni aggiuntive oltre alla variante Flash, ampliando l'accesso alla tecnologia.

Agentic Vision è ora disponibile tramite l'API Gemini in Google AI Studio e Vertex AI, e verrà gradualmente implementato nell'applicazione Gemini, dove gli utenti possono accedervi selezionando "Thinking" dal menu a discesa del modello. Gli sviluppatori possono sperimentare la funzionalità utilizzando la demo in Google AI Studio o abilitando "Code Execution" in AI Studio Playground.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

Altri articoli
Alice Davidson
Alice Davidson

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

La calma prima della tempesta di Solana: cosa ci dicono ora grafici, balene e segnali on-chain

Solana ha dimostrato ottime performance, trainate dalla crescente adozione, dall'interesse istituzionale e da partnership chiave, affrontando al contempo potenziali ...

Per saperne di più

Criptovalute ad aprile 2025: tendenze chiave, cambiamenti e cosa succederà in futuro

Nell'aprile 2025, il settore delle criptovalute si è concentrato sul rafforzamento dell'infrastruttura principale, con Ethereum che si preparava per Pectra...

Per saperne di più
Scopri di più
Leggi di più
Bitget apre la fase di pre-IPO tramite abbonamento, ampliando l'accesso alle opportunità pre-IPO.
Notizie Tecnologia
Bitget apre la fase di pre-IPO tramite abbonamento, ampliando l'accesso alle opportunità pre-IPO.
20 aprile 2026
Gli agenti di intelligenza artificiale stanno migliorando rapidamente, ma faticano ancora a operare nel mondo reale.
Notizie Tecnologia
Gli agenti di intelligenza artificiale stanno migliorando rapidamente, ma faticano ancora a operare nel mondo reale.
20 aprile 2026
All'interno della conferenza Hack Seasons di Cannes: la battaglia sulle stablecoin è già iniziata, mentre la nuova frontiera finanziaria è già in corso.
Hackerare le stagioni Colloquio Affari Lifestyle Tecnologia
All'interno della conferenza Hack Seasons di Cannes: la battaglia sulle stablecoin è già iniziata, mentre la nuova frontiera finanziaria è già in corso.
20 aprile 2026
La SFC di Hong Kong lancia un quadro pilota per la negoziazione secondaria di prodotti di investimento tokenizzati su piattaforme autorizzate.
Affari Notizie Tecnologia
La SFC di Hong Kong lancia un quadro pilota per la negoziazione secondaria di prodotti di investimento tokenizzati su piattaforme autorizzate.
20 aprile 2026
LABORATORI DI CRITTOMERIA PTE. srl.