Google svela Agentic Vision in Gemini 3 Flash, che combina il ragionamento visivo con l'esecuzione del codice
In Breve
Google ha introdotto Agentic Vision in Gemini 3 Flash, consentendo al modello di combinare il ragionamento visivo con l'esecuzione di codice per un'analisi interattiva delle immagini basata su prove.
Azienda tecnologica Google ha svelato la funzionalità Agentic Vision in Gemelli 3 Flash, uno strumento progettato per integrare il ragionamento visivo con l'esecuzione del codice, consentendo al modello di basare le sue risposte su prove visive.
Il sistema Agentic Vision trasforma l'analisi delle immagini da un'interpretazione statica a un processo investigativo attivo. Combinando il ragionamento visivo con codice eseguibile, il modello può sviluppare piani passo-passo per esaminare e manipolare le immagini, come zoom, ritaglio, rotazione, annotazione o esecuzione di calcoli, con l'obiettivo di basare le risposte direttamente sui dati visivi.
È stato dimostrato che l'integrazione dell'esecuzione del codice in Gemini 3 Flash migliora le prestazioni nella maggior parte dei benchmark di visione del 5-10%, offrendo un miglioramento misurabile nelle attività di comprensione delle immagini.
La funzionalità funziona attraverso un ciclo strutturato di "Pensa, Agisci, Osserva". Durante la fase di "Pensa", il modello valuta la query dell'utente insieme all'immagine iniziale e formula un piano in più fasi. Nella fase di "Agisci", genera ed esegue codice Python per manipolare o analizzare l'immagine. Infine, nella fase di "Osserva", l'immagine modificata viene aggiunta alla finestra di contesto del modello, consentendo al sistema di rivalutare le informazioni visive prima di produrre una risposta finale.
Abilitando l'esecuzione del codice tramite la sua API, Gemini 3 Flash sblocca una gamma di comportamenti avanzati, molti dei quali sono illustrati nell'applicazione demo disponibile su Google AI Studio. Gli sviluppatori, dalle principali piattaforme come l'app Gemini alle startup più piccole, hanno iniziato a sfruttare questa funzionalità per supportare diversi casi d'uso nell'analisi delle immagini, nell'annotazione e nel calcolo visivo.
Un'applicazione prevede l'ispezione dettagliata delle immagini. Gemini 3 Flash può ingrandire automaticamente le caratteristiche più dettagliate, consentendo un'analisi iterativa di input ad alta risoluzione. Ad esempio, PlanCheckSolver.com, una piattaforma di convalida delle planimetrie basata sull'intelligenza artificiale, ha riportato un aumento del 5% della precisione utilizzando l'esecuzione di codice per esaminare sezioni specifiche delle planimetrie architettoniche, come i bordi del tetto o le planimetrie degli edifici. Il modello genera codice Python per ritagliare e analizzare queste aree e le reintegra nella sua finestra di contesto, basando le sue conclusioni su prove visive precise.
Un altro caso d'uso è l'annotazione delle immagini. Agentic Vision consente al modello di interagire con i contenuti visivi disegnando direttamente sulle immagini. In attività come il conteggio delle dita di una mano, il modello può sovrapporre riquadri di delimitazione ed etichette numeriche su ogni dito rilevato, creando un "blocco note visivo" che garantisce che il ragionamento sia completamente allineato con i pixel osservati.
Il sistema supporta anche la matematica visiva e la visualizzazione dei dati. Gemini 3 Flash può estrarre dati da tabelle dense ed eseguire codice Python per generare grafici o eseguire calcoli. A differenza dei modelli di linguaggio standard che possono generare errori nell'aritmetica multi-step, Gemini 3 Flash esegue codice Python deterministico per normalizzare i dati e produrre output visivi accurati, come i grafici a barre professionali Matplotlib, sostituendo le ipotesi probabilistiche con risultati verificabili.
Agentic Vision: nuovi strumenti, accesso più ampio e disponibilità API
Google continua ad ampliare le funzionalità di Agentic Vision in Gemini 3 Flash. Attualmente, il modello è in grado di determinare automaticamente quando ingrandire i dettagli più fini, sebbene altre funzioni, come la rotazione delle immagini o l'esecuzione di calcoli visivi, richiedano ancora prompt espliciti. I futuri aggiornamenti mirano a rendere questi comportamenti completamente impliciti.
L'azienda sta inoltre valutando l'aggiunta di nuovi strumenti per i modelli Gemini, tra cui la ricerca web e la ricerca inversa di immagini, per migliorare ulteriormente la capacità del sistema di basare le sue risposte su informazioni del mondo reale. Sono in corso piani per estendere Agentic Vision a modelli di dimensioni aggiuntive oltre alla variante Flash, ampliando l'accesso alla tecnologia.
Agentic Vision è ora disponibile tramite l'API Gemini in Google AI Studio e Vertex AI, e verrà gradualmente implementato nell'applicazione Gemini, dove gli utenti possono accedervi selezionando "Thinking" dal menu a discesa del modello. Gli sviluppatori possono sperimentare la funzionalità utilizzando la demo in Google AI Studio o abilitando "Code Execution" in AI Studio Playground.
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.
Altri articoli
Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.



