Google เปิดตัว Agentic Vision ใน Gemini 3 Flash ซึ่งผสานการใช้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ด
ในบทสรุป
Google ได้เปิดตัว Agentic Vision ใน Gemini 3 Flash ซึ่งช่วยให้โมเดลสามารถผสานการให้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ดเพื่อการวิเคราะห์ภาพแบบโต้ตอบและอิงตามหลักฐาน
บริษัท เทคโนโลยี Google เปิดตัวฟีเจอร์ Agentic Vision ใน เจมินี่ 3 แฟลชเครื่องมือที่ออกแบบมาเพื่อผสานการใช้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ด ทำให้แบบจำลองสามารถตอบสนองโดยอิงจากหลักฐานเชิงภาพได้
ระบบ Agentic Vision เปลี่ยนการวิเคราะห์ภาพจากการตีความแบบคงที่ไปสู่กระบวนการสืบสวนเชิงรุก โดยการผสมผสานการใช้เหตุผลเชิงภาพเข้ากับโค้ดที่สามารถทำงานได้ โมเดลนี้สามารถพัฒนาแผนทีละขั้นตอนเพื่อตรวจสอบและจัดการภาพ เช่น การซูมเข้า การตัด การหมุน การใส่คำอธิบายประกอบ หรือการคำนวณ โดยมีเป้าหมายเพื่อหาคำตอบโดยตรงจากข้อมูลภาพ
การรวมการประมวลผลโค้ดเข้ากับ Gemini 3 Flash ได้แสดงให้เห็นว่าสามารถปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานด้านการมองเห็นส่วนใหญ่ได้ 5-10% ซึ่งให้ผลลัพธ์ที่วัดได้ในการทำงานด้านการทำความเข้าใจภาพ
ฟังก์ชันนี้ทำงานผ่านวงจรคิด ปฏิบัติ และสังเกตอย่างเป็นระบบ ในขั้นตอนการคิด โมเดลจะประเมินคำถามของผู้ใช้ควบคู่ไปกับภาพเริ่มต้น และวางแผนหลายขั้นตอน ในขั้นตอนการปฏิบัติ โมเดลจะสร้างและเรียกใช้โค้ด Python เพื่อจัดการหรือวิเคราะห์ภาพ สุดท้าย ในขั้นตอนการสังเกต ภาพที่แก้ไขแล้วจะถูกเพิ่มเข้าไปในหน้าต่างบริบทของโมเดล ทำให้ระบบสามารถประเมินข้อมูลภาพอีกครั้งก่อนที่จะให้คำตอบสุดท้าย
ด้วยการเปิดใช้งานการเรียกใช้โค้ดผ่าน API ทำให้ Gemini 3 Flash สามารถปลดล็อกพฤติกรรมขั้นสูงมากมาย ซึ่งหลายอย่างแสดงให้เห็นในแอปพลิเคชันสาธิตที่มีให้ใช้งานบน Google AI Studio นักพัฒนาตั้งแต่แพลตฟอร์มหลักอย่างแอป Gemini ไปจนถึงสตาร์ทอัพขนาดเล็ก ได้เริ่มใช้ประโยชน์จากฟังก์ชันนี้เพื่อรองรับกรณีการใช้งานที่หลากหลายในการวิเคราะห์ภาพ การใส่คำอธิบายประกอบ และการคำนวณเชิงภาพ
หนึ่งในแอปพลิเคชันนั้นเกี่ยวข้องกับการตรวจสอบภาพอย่างละเอียด เมถุน 3. Flash สามารถซูมเข้าไปยังรายละเอียดปลีกย่อยได้โดยอัตโนมัติ ทำให้สามารถวิเคราะห์ข้อมูลความละเอียดสูงได้อย่างต่อเนื่อง ตัวอย่างเช่น PlanCheckSolver.com ซึ่งเป็นแพลตฟอร์มตรวจสอบแบบแปลนอาคารที่ขับเคลื่อนด้วย AI รายงานว่าความแม่นยำเพิ่มขึ้น 5% โดยใช้การเรียกใช้โค้ดเพื่อตรวจสอบส่วนต่างๆ ของแบบแปลนทางสถาปัตยกรรม เช่น ขอบหลังคาหรือผังอาคาร โมเดลจะสร้างโค้ด Python เพื่อตัดและวิเคราะห์พื้นที่เหล่านี้ และรวมกลับเข้าไปในหน้าต่างบริบท ทำให้ข้อสรุปมีพื้นฐานมาจากหลักฐานภาพที่แม่นยำ
อีกหนึ่งตัวอย่างการใช้งานคือการใส่คำอธิบายประกอบภาพ Agentic Vision ช่วยให้โมเดลสามารถโต้ตอบกับเนื้อหาภาพได้โดยการวาดลงบนภาพโดยตรง ในงานต่างๆ เช่น การนับนิ้วมือ โมเดลสามารถวางกรอบสี่เหลี่ยมและป้ายกำกับตัวเลขลงบนนิ้วแต่ละนิ้วที่ตรวจพบ สร้างเป็น "สมุดร่างภาพ" ที่ช่วยให้มั่นใจได้ว่าการให้เหตุผลของโมเดลนั้นสอดคล้องกับพิกเซลที่สังเกตได้อย่างสมบูรณ์
ระบบนี้ยังรองรับคณิตศาสตร์เชิงภาพและการแสดงข้อมูลด้วยภาพ Gemini 3 Flash สามารถดึงข้อมูลจากตารางที่มีข้อมูลหนาแน่นและเรียกใช้โค้ด Python เพื่อสร้างแผนภูมิหรือทำการคำนวณ แตกต่างจากแบบจำลองภาษามาตรฐานที่อาจทำให้เกิดข้อผิดพลาดในการคำนวณหลายขั้นตอน Gemini 3 Flash จะเรียกใช้โค้ด Python แบบกำหนดได้เพื่อปรับข้อมูลให้เป็นมาตรฐานและสร้างผลลัพธ์เชิงภาพที่แม่นยำ เช่น แผนภูมิแท่ง Matplotlib ระดับมืออาชีพ โดยแทนที่การคาดเดาแบบสุ่มด้วยผลลัพธ์ที่ตรวจสอบได้
วิสัยทัศน์ของ Agentic: เครื่องมือใหม่ การเข้าถึงที่กว้างขึ้น และความพร้อมใช้งานของ API
Google กำลังขยายขีดความสามารถของ Agentic Vision ใน Gemini 3 Flash อย่างต่อเนื่อง ปัจจุบัน โมเดลนี้สามารถกำหนดเวลาที่จะซูมเข้ารายละเอียดเล็กๆ ได้โดยอัตโนมัติ แต่ฟังก์ชันอื่นๆ เช่น การหมุนภาพหรือการคำนวณทางภาพ ยังคงต้องมีการสั่งการอย่างชัดเจน การอัปเดตในอนาคตมีเป้าหมายที่จะทำให้พฤติกรรมเหล่านี้เป็นไปโดยอัตโนมัติอย่างสมบูรณ์
บริษัทกำลังสำรวจความเป็นไปได้ในการเพิ่มเครื่องมือใหม่ๆ สำหรับรุ่น Gemini รวมถึงการค้นหาบนเว็บและการค้นหารูปภาพย้อนกลับ เพื่อเพิ่มประสิทธิภาพของระบบในการตอบสนองโดยอิงจากข้อมูลในโลกแห่งความเป็นจริง นอกจากนี้ยังมีแผนที่จะขยาย Agentic Vision ไปยังขนาดโมเดลอื่นๆ นอกเหนือจากรุ่น Flash เพื่อให้ผู้คนเข้าถึงเทคโนโลยีได้มากขึ้น
ขณะนี้ Agentic Vision สามารถใช้งานได้ผ่าน Gemini API ใน Google AI Studio และ Vertex AI แล้ว และกำลังทยอยเปิดใช้งานในแอปพลิเคชัน Gemini โดยผู้ใช้สามารถเข้าถึงได้โดยเลือก “Thinking” จากเมนูแบบดรอปดาวน์ของโมเดล นักพัฒนาสามารถทดลองใช้งานฟังก์ชันต่างๆ ได้โดยใช้เดโมใน Google AI Studio หรือโดยการเปิดใช้งาน “Code Execution” ใน AI Studio Playground
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา
บทความอื่น ๆ
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา



