Buletin de stiri Tehnologia
Ianuarie 28, 2026

Google dezvăluie viziunea agentică în Gemini 3 Flash, combinând raționamentul vizual cu execuția de cod

Pe scurt

Google a introdus Agentic Vision în Gemini 3 Flash, permițând modelului să combine raționamentul vizual cu execuția de cod pentru analiza interactivă a imaginilor, bazată pe dovezi.

Google dezvăluie viziunea agentică în Gemini 3 Flash, combinând raționamentul vizual cu execuția de cod

Companie de tehnologie Google a lansat funcția Agentic Vision în Gemini 3 Flash, un instrument conceput pentru a integra raționamentul vizual cu execuția codului, permițând modelului să își bazeze răspunsurile pe dovezi vizuale.

Sistemul Agentic Vision transformă analiza imaginilor dintr-o interpretare statică într-un proces activ, de investigație. Prin combinarea raționamentului vizual cu cod executabil, modelul poate dezvolta planuri pas cu pas pentru a examina și manipula imagini, cum ar fi mărirea, decuparea, rotirea, adnotarea sau efectuarea de calcule, cu scopul de a fundamenta răspunsurile direct în date vizuale.

Incorporarea execuției de cod în Gemini 3 Flash a demonstrat o îmbunătățire a performanței în majoritatea testelor de performanță vizuală cu 5-10%, oferind o îmbunătățire măsurabilă în sarcinile de înțelegere a imaginilor.

Funcția funcționează printr-o buclă structurată de tip „Gândește, Acționează, Observă”. În timpul fazei de „Gândire”, modelul evaluează interogarea utilizatorului alături de imaginea inițială și formulează un plan în mai mulți pași. În faza de „Acționare”, generează și execută cod Python pentru a manipula sau analiza imaginea. În cele din urmă, în faza de „Observă”, imaginea modificată este adăugată în fereastra contextuală a modelului, permițând sistemului să reevalueze informațiile vizuale înainte de a produce un răspuns final.

Prin activarea execuției de cod prin intermediul API-ului său, Gemini 3 Flash deblochează o gamă de comportamente avansate, multe dintre acestea fiind prezentate în aplicația demo disponibilă pe Google AI Studio. Dezvoltatorii, de la platforme importante precum aplicația Gemini până la startup-uri mai mici, au început să utilizeze această funcționalitate pentru a susține diverse cazuri de utilizare în analiza imaginilor, adnotare și calcul vizual.

O aplicație implică inspecția detaliată a imaginilor. zodia Gemeni 3 Flash poate face zoom automat pe caracteristicile detaliate, permițând analiza iterativă a datelor de intrare de înaltă rezoluție. De exemplu, PlanCheckSolver.com, o platformă de validare a planurilor de construcții bazată pe inteligență artificială, a raportat o creștere cu 5% a preciziei prin utilizarea execuției de cod pentru a examina secțiuni specifice ale planurilor arhitecturale, cum ar fi marginile acoperișurilor sau machetele clădirilor. Modelul generează cod Python pentru a decupa și analiza aceste zone și le reintegrează în fereastra sa contextuală, bazându-și concluziile pe dovezi vizuale precise.

Un alt caz de utilizare este adnotarea imaginilor. Agentic Vision permite modelului să interacționeze cu conținutul vizual prin desenarea directă pe imagini. În sarcini precum numărarea cifrelor de pe o mână, modelul poate suprapune casete de încadrare și etichete numerice pe fiecare deget detectat, creând un „bloc vizual” care asigură că raționamentul său este complet aliniat cu pixelii observați.

Sistemul oferă suport și pentru matematică vizuală și vizualizare a datelor. Gemini 3 Flash poate extrage date din tabele dense și poate executa cod Python pentru a genera diagrame sau a efectua calcule. Spre deosebire de modelele de limbaj standard care pot produce erori în aritmetica cu mai mulți pași, Gemini 3 Flash execută cod Python determinist pentru a normaliza datele și a produce rezultate vizuale precise, cum ar fi diagrame cu bare profesionale Matplotlib, înlocuind estimările probabilistice cu rezultate verificabile.

Viziunea Agentică: Instrumente noi, acces mai larg și disponibilitate API

Google continuă să extindă capacitățile Agentic Vision în Gemini 3 Flash. În prezent, modelul este capabil să determine automat când să mărească detaliile fine, deși alte funcții, cum ar fi rotirea imaginilor sau efectuarea de calcule vizuale, necesită în continuare solicitări explicite. Actualizările viitoare își propun să facă aceste comportamente complet implicite.

Compania explorează, de asemenea, adăugarea de noi instrumente pentru modelele Gemini, inclusiv căutarea web și căutarea inversă de imagini, pentru a îmbunătăți și mai mult capacitatea sistemului de a-și baza răspunsurile pe informații din lumea reală. Există planuri de extindere a Agentic Vision la modele de dimensiuni suplimentare, dincolo de varianta Flash, lărgind astfel accesul la tehnologie.

Agentic Vision este acum disponibil prin API-ul Gemini în Google AI Studio și Vertex AI și este implementat treptat în aplicația Gemini, unde utilizatorii îl pot accesa selectând „Thinking” din meniul derulant al modelului. Dezvoltatorii pot experimenta cu funcționalitatea folosind demonstrația din Google AI Studio sau activând „Code Execution” în AI Studio Playground.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Mai multe articole
Alisa Davidson
Alisa Davidson

Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Calmul dinaintea furtunii Solana: Ce spun acum graficele, balenele și semnalele on-chain

Solana a demonstrat o performanță solidă, determinată de creșterea adopției, a interesului instituțional și a parteneriatelor cheie, confruntându-se în același timp cu potențiale...

Aflați mai multe

Criptomonedele în aprilie 2025: tendințe cheie, schimbări și ce urmează

În aprilie 2025, spațiul criptomonedelor s-a concentrat pe consolidarea infrastructurii de bază, Ethereum pregătindu-se pentru Pectra...

Aflați mai multe
Citește mai mult
Află mai multe
Wall Street își intensifică eforturile pentru criptomonede, în contextul în care depunerea cererii Goldman ETF și dezbaterea despre piața cuantică se ciocnesc cu stagnarea prețului Bitcoin.
pieţe Buletin de stiri Tehnologia
Wall Street își intensifică eforturile pentru criptomonede, în contextul în care depunerea cererii Goldman ETF și dezbaterea despre piața cuantică se ciocnesc cu stagnarea prețului Bitcoin.
Aprilie 17, 2026
Dincolo de punțile terțe: Ramp Network lansează un portofel integrat pentru a simplifica accesul la criptomonede cross-chain
Buletin de stiri Tehnologia
Dincolo de punțile terțe: Ramp Network lansează un portofel integrat pentru a simplifica accesul la criptomonede cross-chain
Aprilie 17, 2026
Perplexity lansează aplicația „Personal Computer” pentru Mac, aducând agenți AI mereu activi în sistemele locale și fluxurile de lucru în cloud
Buletin de stiri Tehnologia
Perplexity lansează aplicația „Personal Computer” pentru Mac, aducând agenți AI mereu activi în sistemele locale și fluxurile de lucru în cloud
Aprilie 17, 2026
Bitcoin prins într-un foc încrucișat macroeconomic: Arthur Hayes avertizează asupra deflației și incertitudinii lichidității determinate de inteligența artificială
pieţe Buletin de stiri Tehnologia
Bitcoin prins într-un foc încrucișat macroeconomic: Arthur Hayes avertizează asupra deflației și incertitudinii lichidității determinate de inteligența artificială
Aprilie 17, 2026
CRYPTOMERIA LABS PTE. LTD.