גוגל חושפת חזון סוכני ב-Gemini 3 Flash, המשלב חשיבה חזותית עם ביצוע קוד
בקיצור
גוגל הציגה את Agentic Vision ב-Gemini 3 Flash, המאפשרת למודל לשלב חשיבה חזותית עם ביצוע קוד לצורך ניתוח תמונות אינטראקטיבי מבוסס ראיות.
חברת טכנולוגיה Google חשפה את תכונת Agenty Vision ב Gemini 3 פלאש, כלי שנועד לשלב חשיבה חזותית עם ביצוע קוד, מה שמאפשר למודל לבסס את תגובותיו על ראיות חזותיות.
מערכת Agentic Vision הופכת ניתוח תמונה מפרשנות סטטית לתהליך פעיל וחוקר. על ידי שילוב של חשיבה חזותית עם קוד בר ביצוע, המודל יכול לפתח תוכניות שלב אחר שלב לבחינה ולטפל בתמונות, כגון הגדלה, חיתוך, סיבוב, הוספת הערות או ביצוע חישובים, במטרה לבסס תשובות ישירות בנתונים חזותיים.
שילוב ביצוע קוד בתוך Gemini 3 Flash הוכח כמשפר את הביצועים ברוב מדדי הראייה ב-5-10%, ומציע שיפור מדיד במשימות הבנת תמונה.
התכונה פועלת באמצעות לולאת "חשוב, פעל, התבונן" מובנית. בשלב החשיבה, המודל מעריך את שאילתת המשתמש לצד התמונה הראשונית ומנסח תוכנית רב-שלבית. בשלב הפעולה, הוא יוצר ומבצע קוד פייתון כדי לתפעל או לנתח את התמונה. לבסוף, בשלב ההתבוננות, התמונה שעברה שינוי מתווספת לחלון ההקשר של המודל, מה שמאפשר למערכת להעריך מחדש את המידע החזותי לפני הפקת תגובה סופית.
על ידי מתן אפשרות להרצת קוד דרך ה-API שלו, Gemini 3 Flash פותח מגוון התנהגויות מתקדמות, שרבות מהן מוצגות באפליקציית ההדגמה הזמינה ב-Google AI Studio. מפתחים, החל מפלטפורמות גדולות כמו אפליקציית Gemini ועד לחברות סטארט-אפ קטנות יותר, החלו למנף פונקציונליות זו כדי לתמוך במקרי שימוש מגוונים בניתוח תמונות, ביאור וחישוב חזותי.
יישום אחד כרוך בבדיקה מפורטת של תמונות. מזל תאומים 3 Flash יכול לבצע זום אוטומטי על מאפיינים מדויקים, מה שמאפשר ניתוח איטרטיבי של קלטים ברזולוציה גבוהה. לדוגמה, PlanCheckSolver.com, פלטפורמת אימות תוכניות בנייה המונעת על ידי בינה מלאכותית, דיווחה על עלייה של 5% בדיוק באמצעות שימוש בביצוע קוד לבחינת מקטעים ספציפיים של תוכניות אדריכליות, כגון קצוות גגות או פריסות מבנים. המודל מייצר קוד Python כדי לחתוך ולנתח אזורים אלה ומשלב אותם מחדש בחלון ההקשר שלו, תוך ביסוס מסקנותיו בראיות חזותיות מדויקות.
מקרה שימוש נוסף הוא ביאור תמונה. Agentic Vision מאפשר למודל לתקשר עם תוכן חזותי על ידי ציור ישיר על תמונות. במשימות כמו ספירת ספרות על כף יד, המודל יכול להניח תיבות גבול ותוויות מספריות על כל אצבע שזוהתה, וליצור "משטח גירוד חזותי" המבטיח שההיגיון שלו מיושר לחלוטין עם הפיקסלים הנצפים.
המערכת תומכת גם במתמטיקה חזותית ובוויזואליזציה של נתונים. Gemini 3 Flash יכול לחלץ נתונים מטבלאות צפופות ולבצע קוד Python כדי ליצור תרשימים או לבצע חישובים. בניגוד למודלים של שפה סטנדרטית שעשויים לייצר שגיאות בחשבון רב-שלבי, Gemini 3 Flash מבצע קוד Python דטרמיניסטי כדי לנרמל נתונים ולהפיק פלטים חזותיים מדויקים, כגון תרשימי עמודות מקצועיים של Matplotlib, תוך החלפת ניחושים הסתברותיים בתוצאות ניתנות לאימות.
חזון סוכני: כלים חדשים, גישה רחבה יותר וזמינות API
גוגל ממשיכה להרחיב את יכולות ה-Agentic Vision ב-Gemini 3 Flash. נכון לעכשיו, המודל מסוגל לקבוע מתי להגדיל באופן אוטומטי פרטים עדינים, אם כי פונקציות אחרות, כגון סיבוב תמונות או ביצוע חישובים חזותיים, עדיין דורשות הנחיות מפורשות. עדכונים עתידיים שואפים להפוך התנהגויות אלו למשתמעות לחלוטין.
החברה בוחנת גם את האפשרות להוסיף כלים חדשים לדגמי ג'מיני, כולל חיפוש אינטרנט וחיפוש תמונות הפוך, כדי לשפר עוד יותר את יכולת המערכת לבסס את תגובותיה על מידע מהעולם האמיתי. תוכניות מתקיימות להרחיב את Agentic Vision לגדלים נוספים של דגמים מעבר לגרסת הפלאש, ובכך להרחיב את הגישה לטכנולוגיה.
Agentic Vision זמין כעת דרך ממשק ה-API של Gemini ב-Google AI Studio וב-Vertex AI, והוא מושק בהדרגה באפליקציית Gemini, שם משתמשים יכולים לגשת אליו על ידי בחירה באפשרות "Thinking" מהתפריט הנפתח של המודל. מפתחים יכולים להתנסות בפונקציונליות באמצעות ההדגמה ב-Google AI Studio או על ידי הפעלת "Code Execution" ב-AI Studio Playground.
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
אליסה, עיתונאית מסורה ב- MPost, מתמחה בקריפטו, בינה מלאכותית, השקעות והתחום הנרחב של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.
מאמרים נוספים
אליסה, עיתונאית מסורה ב- MPost, מתמחה בקריפטו, בינה מלאכותית, השקעות והתחום הנרחב של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.



