Novinky Technika
Ledna 28, 2026

Google představuje agentní vidění v Gemini 3 Flash, které kombinuje vizuální uvažování s prováděním kódu.

Stručně

Společnost Google představila v platformě Gemini 3 Flash technologii Agentic Vision, která umožňuje modelu kombinovat vizuální uvažování s prováděním kódu pro interaktivní analýzu obrazu založenou na důkazech.

Google představuje agentní vidění v Gemini 3 Flash, které kombinuje vizuální uvažování s prováděním kódu.

Technologická společnost Google představila funkci Agentic Vision v roce Gemini 3 Flash, nástroj určený k integraci vizuálního uvažování s prováděním kódu, což modelu umožňuje založit jeho odpovědi na vizuálních důkazech.

Systém Agentic Vision transformuje analýzu obrazu ze statické interpretace do aktivního, vyšetřovacího procesu. Kombinací vizuálního uvažování se spustitelným kódem může model vyvíjet podrobné plány pro zkoumání a manipulaci s obrazy, jako je přiblížení, ořezávání, otáčení, anotace nebo provádění výpočtů, s cílem založit odpovědi přímo na vizuálních datech.

Ukázalo se, že začlenění spouštění kódu do Gemini 3 Flash zlepšuje výkon ve většině benchmarků pro vizuální analýzu o 5–10 %, což nabízí měřitelné zlepšení v úlohách rozpoznávání obrazu.

Funkce funguje prostřednictvím strukturované smyčky „Mysli, jednej, pozoruj“. Během fáze „Mysli“ model vyhodnocuje uživatelský dotaz spolu s původním obrázkem a formuluje vícekrokový plán. Ve fázi „Act“ generuje a spouští kód Pythonu pro manipulaci s obrázkem nebo jeho analýzu. Nakonec, ve fázi „Observe“, je upravený obrázek přidán do kontextového okna modelu, což systému umožňuje znovu vyhodnotit vizuální informace před vytvořením konečné odpovědi.

Umožněním spouštění kódu prostřednictvím svého API odemyká Gemini 3 Flash řadu pokročilých funkcí, z nichž mnohé jsou prezentovány v demo aplikaci dostupné v Google AI Studio. Vývojáři, od velkých platforem, jako je aplikace Gemini, až po menší startupy, začali tuto funkci využívat k podpoře rozmanitých případů použití v analýze obrazu, anotacích a vizuálních výpočtech.

Jedna aplikace zahrnuje podrobnou kontrolu obrázků. Blíženci 3 Flash dokáže automaticky přiblížit jemnozrnné prvky, což umožňuje iterativní analýzu vstupů s vysokým rozlišením. Například PlanCheckSolver.com, platforma pro ověřování stavebních plánů řízená umělou inteligencí, oznámila 5% zvýšení přesnosti pomocí spuštění kódu k prozkoumání specifických částí architektonických plánů, jako jsou okraje střech nebo rozvržení budov. Model generuje kód Pythonu pro oříznutí a analýzu těchto oblastí a znovu je integruje do svého kontextového okna, čímž své závěry zakládá na přesných vizuálních důkazech.

Dalším případem použití je anotace obrázků. Agentic Vision umožňuje modelu interagovat s vizuálním obsahem kreslením přímo na obrázky. V úlohách, jako je počítání číslic na ruce, může model překrývat ohraničující rámečky a číselné popisky na každém detekovaném prstu, čímž vytváří „vizuální zápisník“, který zajišťuje, že jeho uvažování je plně v souladu s pozorovanými pixely.

Systém také podporuje vizuální matematiku a vizualizaci dat. Gemini 3 Flash dokáže extrahovat data z hustých tabulek a spouštět kód Pythonu pro generování grafů nebo provádění výpočtů. Na rozdíl od standardních jazykových modelů, které mohou způsobovat chyby ve vícekrokové aritmetice, Gemini 3 Flash spouští deterministický kód Pythonu pro normalizaci dat a vytváření přesných vizuálních výstupů, jako jsou profesionální sloupcové grafy Matplotlib, a nahrazuje pravděpodobnostní odhady ověřitelnými výsledky.

Agentic Vision: Nové nástroje, širší přístup a dostupnost API

Google nadále rozšiřuje možnosti Agentic Vision v Gemini 3 Flash. V současné době je model schopen automaticky určit, kdy se má přiblížit na jemné detaily, ačkoli jiné funkce, jako je otáčení obrázků nebo provádění vizuálních výpočtů, stále vyžadují explicitní pokyny. Budoucí aktualizace si kladou za cíl, aby bylo toto chování plně implicitní.

Společnost také zkoumá přidání nových nástrojů pro modely Gemini, včetně vyhledávání na webu a zpětného vyhledávání obrázků, aby dále zlepšila schopnost systému zakládat své odpovědi na informacích z reálného světa. V současné době se plánuje rozšíření Agentic Vision na další velikosti modelů nad rámec varianty Flash, čímž se rozšíří přístup k této technologii.

Agentic Vision je nyní k dispozici prostřednictvím rozhraní Gemini API v platformách Google AI Studio a Vertex AI a postupně se zavádí i v aplikaci Gemini, kde k němu uživatelé mohou přistupovat výběrem možnosti „Myšlení“ z rozbalovací nabídky modelu. Vývojáři mohou s funkcemi experimentovat pomocí dema v Google AI Studio nebo povolením možnosti „Spouštění kódu“ v AI Studio Playground.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.

Další články
Alisa Davidsonová
Alisa Davidsonová

Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.

Hot Stories
Připojte se k našemu zpravodaji.
Novinky

Klid před bouří Solana: Co nyní říkají grafy, velryby a signály na řetězci

Solana prokázala silné výsledky, které byly poháněny rostoucím přijetím, zájmem institucí a klíčovými partnerstvími, a zároveň čelí potenciálnímu...

Vědět více

Kryptoměny v dubnu 2025: Klíčové trendy, posuny a co bude dál

V dubnu 2025 se kryptoměnový prostor zaměřil na posílení základní infrastruktury, přičemž Ethereum se připravovalo na Pectru...

Vědět více
Přečíst více
Více informací
Bitget spouští obchodování s kopírováním CFD uprostřed rostoucí poptávky po expozici napříč trhy
Novinky Technika
Bitget spouští obchodování s kopírováním CFD uprostřed rostoucí poptávky po expozici napříč trhy
14. dubna 2026
Tether představuje peněženku, která koncovým uživatelům napříč globálními trhy zpřístupní digitální aktiva v vlastní správě
Novinky Technika
Tether představuje peněženku, která koncovým uživatelům napříč globálními trhy zpřístupní digitální aktiva v vlastní správě
14. dubna 2026
Nová platforma „Vantage“ od Googlu využívá avatary s umělou inteligencí k testování kritického myšlení, spolupráce a dovedností z reálného světa.
Novinky Technika
Nová platforma „Vantage“ od Googlu využívá avatary s umělou inteligencí k testování kritického myšlení, spolupráce a dovedností z reálného světa.
14. dubna 2026
Hongkong hostí summit Digital Quant 2026, který se zabývá obchodováním s využitím umělé inteligence, tokenizací a investičními strategiemi napříč trhy.
Hack Seasons Životní styl Novinky Technika
Hongkong hostí summit Digital Quant 2026, který se zabývá obchodováním s využitím umělé inteligence, tokenizací a investičními strategiemi napříč trhy.
14. dubna 2026
CRYPTOMERIA LABS PTE. LTD.