Google presenterar Agentic Vision i Gemini 3 Flash, som kombinerar visuellt resonemang med kodkörning
I korthet
Google har introducerat Agentic Vision i Gemini 3 Flash, vilket gör det möjligt för modellen att kombinera visuellt resonemang med kodkörning för interaktiv, evidensbaserad bildanalys.
Teknologiföretag Google presenterade Agent Vision-funktionen i Gemini 3 Flash, ett verktyg utformat för att integrera visuellt resonemang med kodkörning, vilket gör det möjligt för modellen att basera sina svar på visuella bevis.
Agentic Vision-systemet omvandlar bildanalys från en statisk tolkning till en aktiv, undersökande process. Genom att kombinera visuellt resonemang med körbar kod kan modellen utveckla steg-för-steg-planer för att undersöka och manipulera bilder, såsom att zooma in, beskära, rotera, kommentera eller utföra beräkningar, med målet att förankra svaren direkt i visuell data.
Att integrera kodkörning i Gemini 3 Flash har visat sig förbättra prestandan för de flesta visuella prestandatester med 5–10 %, vilket ger en mätbar förbättring av bildförståelseuppgifter.
Funktionen fungerar genom en strukturerad Tänk, Agera, Observera-loop. Under Tänk-fasen utvärderar modellen användarfrågan tillsammans med den initiala bilden och formulerar en flerstegsplan. I Agera-fasen genererar och kör den Python-kod för att manipulera eller analysera bilden. Slutligen, i Observera-fasen, läggs den modifierade bilden till i modellens kontextfönster, vilket gör att systemet kan omvärdera den visuella informationen innan ett slutgiltigt svar produceras.
Genom att möjliggöra kodkörning via sitt API låser Gemini 3 Flash upp en rad avancerade beteenden, av vilka många visas i demoapplikationen som finns tillgänglig på Google AI Studio. Utvecklare, från stora plattformar som Gemini-appen till mindre startups, har börjat utnyttja denna funktion för att stödja olika användningsområden inom bildanalys, annotering och visuell beräkning.
En tillämpning innebär detaljerad inspektion av bilder. tvillingarna 3 Flash kan automatiskt zooma in på finkorniga funktioner, vilket möjliggör iterativ analys av högupplösta indata. Till exempel rapporterade PlanCheckSolver.com, en AI-driven plattform för validering av byggplaner, en ökning av noggrannheten med 5 % genom att använda kodkörning för att undersöka specifika delar av arkitektoniska planer, såsom takkanter eller byggnadslayouter. Modellen genererar Python-kod för att beskära och analysera dessa områden och återintegrerar dem i sitt kontextfönster, vilket grundar sina slutsatser i exakta visuella bevis.
Ett annat användningsfall är bildannotering. Agentic Vision gör det möjligt för modellen att interagera med visuellt innehåll genom att rita direkt på bilder. I uppgifter som att räkna siffror på en hand kan modellen lägga över avgränsande rutor och numeriska etiketter på varje detekterat finger, vilket skapar en "visuell anteckningsplatta" som säkerställer att dess resonemang är helt i linje med de observerade pixlarna.
Systemet stöder även visuell matematik och datavisualisering. Gemini 3 Flash kan extrahera data från täta tabeller och köra Python-kod för att generera diagram eller utföra beräkningar. Till skillnad från standardspråkmodeller som kan producera fel i flerstegsaritmetik, kör Gemini 3 Flash deterministisk Python-kod för att normalisera data och producera korrekta visuella utdata, såsom professionella Matplotlib-stapeldiagram, och ersätta probabilistiska gissningar med verifierbara resultat.
Agentic Vision: Nya verktyg, bredare åtkomst och API-tillgänglighet
Google fortsätter att utöka funktionerna i Agentic Vision i Gemini 3 Flash. För närvarande kan modellen automatiskt avgöra när fina detaljer ska zoomas in, även om andra funktioner, som att rotera bilder eller utföra visuella beräkningar, fortfarande kräver explicita uppmaningar. Framtida uppdateringar syftar till att göra dessa beteenden helt implicita.
Företaget undersöker också möjligheten att lägga till nya verktyg för Gemini-modeller, inklusive webbsökning och omvänd bildsökning, för att ytterligare förbättra systemets förmåga att basera sina svar på verklig information. Planer pågår för att utöka Agentic Vision till ytterligare modellstorlekar utöver Flash-varianten, vilket breddar tillgången till tekniken.
Agentic Vision är nu tillgängligt via Gemini API i Google AI Studio och Vertex AI, och det lanseras gradvis i Gemini-applikationen, där användare kan komma åt det genom att välja "Thinking" från rullgardinsmenyn för modeller. Utvecklare kan experimentera med funktionaliteten med hjälp av demon i Google AI Studio eller genom att aktivera "Code Execution" i AI Studio Playground.
Ansvarsfriskrivning
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.
fler artiklar
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.



