Google dezvăluie viziunea agentică în Gemini 3 Flash, combinând raționamentul vizual cu execuția de cod
Pe scurt
Google a introdus Agentic Vision în Gemini 3 Flash, permițând modelului să combine raționamentul vizual cu execuția de cod pentru analiza interactivă a imaginilor, bazată pe dovezi.
Companie de tehnologie Google a lansat funcția Agentic Vision în Gemini 3 Flash, un instrument conceput pentru a integra raționamentul vizual cu execuția codului, permițând modelului să își bazeze răspunsurile pe dovezi vizuale.
Sistemul Agentic Vision transformă analiza imaginilor dintr-o interpretare statică într-un proces activ, de investigație. Prin combinarea raționamentului vizual cu cod executabil, modelul poate dezvolta planuri pas cu pas pentru a examina și manipula imagini, cum ar fi mărirea, decuparea, rotirea, adnotarea sau efectuarea de calcule, cu scopul de a fundamenta răspunsurile direct în date vizuale.
Incorporarea execuției de cod în Gemini 3 Flash a demonstrat o îmbunătățire a performanței în majoritatea testelor de performanță vizuală cu 5-10%, oferind o îmbunătățire măsurabilă în sarcinile de înțelegere a imaginilor.
Funcția funcționează printr-o buclă structurată de tip „Gândește, Acționează, Observă”. În timpul fazei de „Gândire”, modelul evaluează interogarea utilizatorului alături de imaginea inițială și formulează un plan în mai mulți pași. În faza de „Acționare”, generează și execută cod Python pentru a manipula sau analiza imaginea. În cele din urmă, în faza de „Observă”, imaginea modificată este adăugată în fereastra contextuală a modelului, permițând sistemului să reevalueze informațiile vizuale înainte de a produce un răspuns final.
Prin activarea execuției de cod prin intermediul API-ului său, Gemini 3 Flash deblochează o gamă de comportamente avansate, multe dintre acestea fiind prezentate în aplicația demo disponibilă pe Google AI Studio. Dezvoltatorii, de la platforme importante precum aplicația Gemini până la startup-uri mai mici, au început să utilizeze această funcționalitate pentru a susține diverse cazuri de utilizare în analiza imaginilor, adnotare și calcul vizual.
O aplicație implică inspecția detaliată a imaginilor. zodia Gemeni 3 Flash poate face zoom automat pe caracteristicile detaliate, permițând analiza iterativă a datelor de intrare de înaltă rezoluție. De exemplu, PlanCheckSolver.com, o platformă de validare a planurilor de construcții bazată pe inteligență artificială, a raportat o creștere cu 5% a preciziei prin utilizarea execuției de cod pentru a examina secțiuni specifice ale planurilor arhitecturale, cum ar fi marginile acoperișurilor sau machetele clădirilor. Modelul generează cod Python pentru a decupa și analiza aceste zone și le reintegrează în fereastra sa contextuală, bazându-și concluziile pe dovezi vizuale precise.
Un alt caz de utilizare este adnotarea imaginilor. Agentic Vision permite modelului să interacționeze cu conținutul vizual prin desenarea directă pe imagini. În sarcini precum numărarea cifrelor de pe o mână, modelul poate suprapune casete de încadrare și etichete numerice pe fiecare deget detectat, creând un „bloc vizual” care asigură că raționamentul său este complet aliniat cu pixelii observați.
Sistemul oferă suport și pentru matematică vizuală și vizualizare a datelor. Gemini 3 Flash poate extrage date din tabele dense și poate executa cod Python pentru a genera diagrame sau a efectua calcule. Spre deosebire de modelele de limbaj standard care pot produce erori în aritmetica cu mai mulți pași, Gemini 3 Flash execută cod Python determinist pentru a normaliza datele și a produce rezultate vizuale precise, cum ar fi diagrame cu bare profesionale Matplotlib, înlocuind estimările probabilistice cu rezultate verificabile.
Viziunea Agentică: Instrumente noi, acces mai larg și disponibilitate API
Google continuă să extindă capacitățile Agentic Vision în Gemini 3 Flash. În prezent, modelul este capabil să determine automat când să mărească detaliile fine, deși alte funcții, cum ar fi rotirea imaginilor sau efectuarea de calcule vizuale, necesită în continuare solicitări explicite. Actualizările viitoare își propun să facă aceste comportamente complet implicite.
Compania explorează, de asemenea, adăugarea de noi instrumente pentru modelele Gemini, inclusiv căutarea web și căutarea inversă de imagini, pentru a îmbunătăți și mai mult capacitatea sistemului de a-și baza răspunsurile pe informații din lumea reală. Există planuri de extindere a Agentic Vision la modele de dimensiuni suplimentare, dincolo de varianta Flash, lărgind astfel accesul la tehnologie.
Agentic Vision este acum disponibil prin API-ul Gemini în Google AI Studio și Vertex AI și este implementat treptat în aplicația Gemini, unde utilizatorii îl pot accesa selectând „Thinking” din meniul derulant al modelului. Dezvoltatorii pot experimenta cu funcționalitatea folosind demonstrația din Google AI Studio sau activând „Code Execution” în AI Studio Playground.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.
Mai multe articole
Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.



