Google představuje agentní vidění v Gemini 3 Flash, které kombinuje vizuální uvažování s prováděním kódu.
Stručně
Společnost Google představila v platformě Gemini 3 Flash technologii Agentic Vision, která umožňuje modelu kombinovat vizuální uvažování s prováděním kódu pro interaktivní analýzu obrazu založenou na důkazech.
Technologická společnost Google představila funkci Agentic Vision v roce Gemini 3 Flash, nástroj určený k integraci vizuálního uvažování s prováděním kódu, což modelu umožňuje založit jeho odpovědi na vizuálních důkazech.
Systém Agentic Vision transformuje analýzu obrazu ze statické interpretace do aktivního, vyšetřovacího procesu. Kombinací vizuálního uvažování se spustitelným kódem může model vyvíjet podrobné plány pro zkoumání a manipulaci s obrazy, jako je přiblížení, ořezávání, otáčení, anotace nebo provádění výpočtů, s cílem založit odpovědi přímo na vizuálních datech.
Ukázalo se, že začlenění spouštění kódu do Gemini 3 Flash zlepšuje výkon ve většině benchmarků pro vizuální analýzu o 5–10 %, což nabízí měřitelné zlepšení v úlohách rozpoznávání obrazu.
Funkce funguje prostřednictvím strukturované smyčky „Mysli, jednej, pozoruj“. Během fáze „Mysli“ model vyhodnocuje uživatelský dotaz spolu s původním obrázkem a formuluje vícekrokový plán. Ve fázi „Act“ generuje a spouští kód Pythonu pro manipulaci s obrázkem nebo jeho analýzu. Nakonec, ve fázi „Observe“, je upravený obrázek přidán do kontextového okna modelu, což systému umožňuje znovu vyhodnotit vizuální informace před vytvořením konečné odpovědi.
Umožněním spouštění kódu prostřednictvím svého API odemyká Gemini 3 Flash řadu pokročilých funkcí, z nichž mnohé jsou prezentovány v demo aplikaci dostupné v Google AI Studio. Vývojáři, od velkých platforem, jako je aplikace Gemini, až po menší startupy, začali tuto funkci využívat k podpoře rozmanitých případů použití v analýze obrazu, anotacích a vizuálních výpočtech.
Jedna aplikace zahrnuje podrobnou kontrolu obrázků. Blíženci 3 Flash dokáže automaticky přiblížit jemnozrnné prvky, což umožňuje iterativní analýzu vstupů s vysokým rozlišením. Například PlanCheckSolver.com, platforma pro ověřování stavebních plánů řízená umělou inteligencí, oznámila 5% zvýšení přesnosti pomocí spuštění kódu k prozkoumání specifických částí architektonických plánů, jako jsou okraje střech nebo rozvržení budov. Model generuje kód Pythonu pro oříznutí a analýzu těchto oblastí a znovu je integruje do svého kontextového okna, čímž své závěry zakládá na přesných vizuálních důkazech.
Dalším případem použití je anotace obrázků. Agentic Vision umožňuje modelu interagovat s vizuálním obsahem kreslením přímo na obrázky. V úlohách, jako je počítání číslic na ruce, může model překrývat ohraničující rámečky a číselné popisky na každém detekovaném prstu, čímž vytváří „vizuální zápisník“, který zajišťuje, že jeho uvažování je plně v souladu s pozorovanými pixely.
Systém také podporuje vizuální matematiku a vizualizaci dat. Gemini 3 Flash dokáže extrahovat data z hustých tabulek a spouštět kód Pythonu pro generování grafů nebo provádění výpočtů. Na rozdíl od standardních jazykových modelů, které mohou způsobovat chyby ve vícekrokové aritmetice, Gemini 3 Flash spouští deterministický kód Pythonu pro normalizaci dat a vytváření přesných vizuálních výstupů, jako jsou profesionální sloupcové grafy Matplotlib, a nahrazuje pravděpodobnostní odhady ověřitelnými výsledky.
Agentic Vision: Nové nástroje, širší přístup a dostupnost API
Google nadále rozšiřuje možnosti Agentic Vision v Gemini 3 Flash. V současné době je model schopen automaticky určit, kdy se má přiblížit na jemné detaily, ačkoli jiné funkce, jako je otáčení obrázků nebo provádění vizuálních výpočtů, stále vyžadují explicitní pokyny. Budoucí aktualizace si kladou za cíl, aby bylo toto chování plně implicitní.
Společnost také zkoumá přidání nových nástrojů pro modely Gemini, včetně vyhledávání na webu a zpětného vyhledávání obrázků, aby dále zlepšila schopnost systému zakládat své odpovědi na informacích z reálného světa. V současné době se plánuje rozšíření Agentic Vision na další velikosti modelů nad rámec varianty Flash, čímž se rozšíří přístup k této technologii.
Agentic Vision je nyní k dispozici prostřednictvím rozhraní Gemini API v platformách Google AI Studio a Vertex AI a postupně se zavádí i v aplikaci Gemini, kde k němu uživatelé mohou přistupovat výběrem možnosti „Myšlení“ z rozbalovací nabídky modelu. Vývojáři mohou s funkcemi experimentovat pomocí dema v Google AI Studio nebo povolením možnosti „Spouštění kódu“ v AI Studio Playground.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.
Další články
Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.



