รายงานข่าว เทคโนโลยี
January 28, 2026

Google เปิดตัว Agentic Vision ใน Gemini 3 Flash ซึ่งผสานการใช้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ด

ในบทสรุป

Google ได้เปิดตัว Agentic Vision ใน Gemini 3 Flash ซึ่งช่วยให้โมเดลสามารถผสานการให้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ดเพื่อการวิเคราะห์ภาพแบบโต้ตอบและอิงตามหลักฐาน

Google เปิดตัว Agentic Vision ใน Gemini 3 Flash ซึ่งผสานการใช้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ด

บริษัท เทคโนโลยี Google เปิดตัวฟีเจอร์ Agentic Vision ใน เจมินี่ 3 แฟลชเครื่องมือที่ออกแบบมาเพื่อผสานการใช้เหตุผลเชิงภาพเข้ากับการประมวลผลโค้ด ทำให้แบบจำลองสามารถตอบสนองโดยอิงจากหลักฐานเชิงภาพได้

ระบบ Agentic Vision เปลี่ยนการวิเคราะห์ภาพจากการตีความแบบคงที่ไปสู่กระบวนการสืบสวนเชิงรุก โดยการผสมผสานการใช้เหตุผลเชิงภาพเข้ากับโค้ดที่สามารถทำงานได้ โมเดลนี้สามารถพัฒนาแผนทีละขั้นตอนเพื่อตรวจสอบและจัดการภาพ เช่น การซูมเข้า การตัด การหมุน การใส่คำอธิบายประกอบ หรือการคำนวณ โดยมีเป้าหมายเพื่อหาคำตอบโดยตรงจากข้อมูลภาพ

การรวมการประมวลผลโค้ดเข้ากับ Gemini 3 Flash ได้แสดงให้เห็นว่าสามารถปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานด้านการมองเห็นส่วนใหญ่ได้ 5-10% ซึ่งให้ผลลัพธ์ที่วัดได้ในการทำงานด้านการทำความเข้าใจภาพ

ฟังก์ชันนี้ทำงานผ่านวงจรคิด ปฏิบัติ และสังเกตอย่างเป็นระบบ ในขั้นตอนการคิด โมเดลจะประเมินคำถามของผู้ใช้ควบคู่ไปกับภาพเริ่มต้น และวางแผนหลายขั้นตอน ในขั้นตอนการปฏิบัติ โมเดลจะสร้างและเรียกใช้โค้ด Python เพื่อจัดการหรือวิเคราะห์ภาพ สุดท้าย ในขั้นตอนการสังเกต ภาพที่แก้ไขแล้วจะถูกเพิ่มเข้าไปในหน้าต่างบริบทของโมเดล ทำให้ระบบสามารถประเมินข้อมูลภาพอีกครั้งก่อนที่จะให้คำตอบสุดท้าย

ด้วยการเปิดใช้งานการเรียกใช้โค้ดผ่าน API ทำให้ Gemini 3 Flash สามารถปลดล็อกพฤติกรรมขั้นสูงมากมาย ซึ่งหลายอย่างแสดงให้เห็นในแอปพลิเคชันสาธิตที่มีให้ใช้งานบน Google AI Studio นักพัฒนาตั้งแต่แพลตฟอร์มหลักอย่างแอป Gemini ไปจนถึงสตาร์ทอัพขนาดเล็ก ได้เริ่มใช้ประโยชน์จากฟังก์ชันนี้เพื่อรองรับกรณีการใช้งานที่หลากหลายในการวิเคราะห์ภาพ การใส่คำอธิบายประกอบ และการคำนวณเชิงภาพ

หนึ่งในแอปพลิเคชันนั้นเกี่ยวข้องกับการตรวจสอบภาพอย่างละเอียด เมถุน 3. Flash สามารถซูมเข้าไปยังรายละเอียดปลีกย่อยได้โดยอัตโนมัติ ทำให้สามารถวิเคราะห์ข้อมูลความละเอียดสูงได้อย่างต่อเนื่อง ตัวอย่างเช่น PlanCheckSolver.com ซึ่งเป็นแพลตฟอร์มตรวจสอบแบบแปลนอาคารที่ขับเคลื่อนด้วย AI รายงานว่าความแม่นยำเพิ่มขึ้น 5% โดยใช้การเรียกใช้โค้ดเพื่อตรวจสอบส่วนต่างๆ ของแบบแปลนทางสถาปัตยกรรม เช่น ขอบหลังคาหรือผังอาคาร โมเดลจะสร้างโค้ด Python เพื่อตัดและวิเคราะห์พื้นที่เหล่านี้ และรวมกลับเข้าไปในหน้าต่างบริบท ทำให้ข้อสรุปมีพื้นฐานมาจากหลักฐานภาพที่แม่นยำ

อีกหนึ่งตัวอย่างการใช้งานคือการใส่คำอธิบายประกอบภาพ Agentic Vision ช่วยให้โมเดลสามารถโต้ตอบกับเนื้อหาภาพได้โดยการวาดลงบนภาพโดยตรง ในงานต่างๆ เช่น การนับนิ้วมือ โมเดลสามารถวางกรอบสี่เหลี่ยมและป้ายกำกับตัวเลขลงบนนิ้วแต่ละนิ้วที่ตรวจพบ สร้างเป็น "สมุดร่างภาพ" ที่ช่วยให้มั่นใจได้ว่าการให้เหตุผลของโมเดลนั้นสอดคล้องกับพิกเซลที่สังเกตได้อย่างสมบูรณ์

ระบบนี้ยังรองรับคณิตศาสตร์เชิงภาพและการแสดงข้อมูลด้วยภาพ Gemini 3 Flash สามารถดึงข้อมูลจากตารางที่มีข้อมูลหนาแน่นและเรียกใช้โค้ด Python เพื่อสร้างแผนภูมิหรือทำการคำนวณ แตกต่างจากแบบจำลองภาษามาตรฐานที่อาจทำให้เกิดข้อผิดพลาดในการคำนวณหลายขั้นตอน Gemini 3 Flash จะเรียกใช้โค้ด Python แบบกำหนดได้เพื่อปรับข้อมูลให้เป็นมาตรฐานและสร้างผลลัพธ์เชิงภาพที่แม่นยำ เช่น แผนภูมิแท่ง Matplotlib ระดับมืออาชีพ โดยแทนที่การคาดเดาแบบสุ่มด้วยผลลัพธ์ที่ตรวจสอบได้

วิสัยทัศน์ของ Agentic: เครื่องมือใหม่ การเข้าถึงที่กว้างขึ้น และความพร้อมใช้งานของ API

Google กำลังขยายขีดความสามารถของ Agentic Vision ใน Gemini 3 Flash อย่างต่อเนื่อง ปัจจุบัน โมเดลนี้สามารถกำหนดเวลาที่จะซูมเข้ารายละเอียดเล็กๆ ได้โดยอัตโนมัติ แต่ฟังก์ชันอื่นๆ เช่น การหมุนภาพหรือการคำนวณทางภาพ ยังคงต้องมีการสั่งการอย่างชัดเจน การอัปเดตในอนาคตมีเป้าหมายที่จะทำให้พฤติกรรมเหล่านี้เป็นไปโดยอัตโนมัติอย่างสมบูรณ์

บริษัทกำลังสำรวจความเป็นไปได้ในการเพิ่มเครื่องมือใหม่ๆ สำหรับรุ่น Gemini รวมถึงการค้นหาบนเว็บและการค้นหารูปภาพย้อนกลับ เพื่อเพิ่มประสิทธิภาพของระบบในการตอบสนองโดยอิงจากข้อมูลในโลกแห่งความเป็นจริง นอกจากนี้ยังมีแผนที่จะขยาย Agentic Vision ไปยังขนาดโมเดลอื่นๆ นอกเหนือจากรุ่น Flash เพื่อให้ผู้คนเข้าถึงเทคโนโลยีได้มากขึ้น

ขณะนี้ Agentic Vision สามารถใช้งานได้ผ่าน Gemini API ใน Google AI Studio และ Vertex AI แล้ว และกำลังทยอยเปิดใช้งานในแอปพลิเคชัน Gemini โดยผู้ใช้สามารถเข้าถึงได้โดยเลือก “Thinking” จากเมนูแบบดรอปดาวน์ของโมเดล นักพัฒนาสามารถทดลองใช้งานฟังก์ชันต่างๆ ได้โดยใช้เดโมใน Google AI Studio หรือโดยการเปิดใช้งาน “Code Execution” ใน AI Studio Playground

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

บทความอื่น ๆ
อลิสา เดวิดสัน
อลิสา เดวิดสัน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความสงบก่อนพายุโซลานา: แผนภูมิ วาฬ และสัญญาณบนเชนบอกอะไรเราบ้างในตอนนี้

Solana ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง ซึ่งขับเคลื่อนโดยการเพิ่มขึ้นของการนำไปใช้ ความสนใจของสถาบัน และความร่วมมือที่สำคัญ ในขณะที่เผชิญกับศักยภาพ ...

รู้เพิ่มเติม

Crypto ในเดือนเมษายน 2025: แนวโน้มสำคัญ การเปลี่ยนแปลง และสิ่งที่จะเกิดขึ้นต่อไป

ในเดือนเมษายน พ.ศ. 2025 พื้นที่คริปโตมุ่งเน้นไปที่การเสริมสร้างโครงสร้างพื้นฐานหลัก โดย Ethereum กำลังเตรียมพร้อมสำหรับ Pectra ...

รู้เพิ่มเติม
อ่านเพิ่มเติม
อ่านเพิ่มเติม
วอลล์สตรีทผลักดันคริปโตเคอร์เรนซีอย่างหนัก ขณะที่การยื่นขอจัดตั้ง ETF ของโกลด์แมน แซ็ก และการถกเถียงเรื่องควอนตัม ปะทะกับภาวะราคาบิตคอยน์ชะงักงัน
ตลาด รายงานข่าว เทคโนโลยี
วอลล์สตรีทผลักดันคริปโตเคอร์เรนซีอย่างหนัก ขณะที่การยื่นขอจัดตั้ง ETF ของโกลด์แมน แซ็ก และการถกเถียงเรื่องควอนตัม ปะทะกับภาวะราคาบิตคอยน์ชะงักงัน
April 17, 2026
นอกเหนือจากบริดจ์ของบุคคลที่สาม: Ramp Network เปิดตัวกระเป๋าเงินดิจิทัลแบบบูรณาการเพื่อเพิ่มประสิทธิภาพการเข้าถึงคริปโตเคอร์เรนซีข้ามเครือข่าย
รายงานข่าว เทคโนโลยี
นอกเหนือจากบริดจ์ของบุคคลที่สาม: Ramp Network เปิดตัวกระเป๋าเงินดิจิทัลแบบบูรณาการเพื่อเพิ่มประสิทธิภาพการเข้าถึงคริปโตเคอร์เรนซีข้ามเครือข่าย
April 17, 2026
Perplexity เปิดตัวแอปพลิเคชัน 'Personal Computer' สำหรับ Mac ซึ่งนำเอเจนต์ AI ที่ทำงานตลอดเวลามาสู่ระบบภายในเครื่องและเวิร์กโฟลว์บนคลาวด์
รายงานข่าว เทคโนโลยี
Perplexity เปิดตัวแอปพลิเคชัน 'Personal Computer' สำหรับ Mac ซึ่งนำเอเจนต์ AI ที่ทำงานตลอดเวลามาสู่ระบบภายในเครื่องและเวิร์กโฟลว์บนคลาวด์
April 17, 2026
บิตคอยน์ตกอยู่ท่ามกลางวิกฤตเศรษฐกิจมหภาค: อาร์เธอร์ เฮย์ส เตือนถึงภาวะเงินฝืดที่เกิดจากปัญญาประดิษฐ์ และความไม่แน่นอนของสภาพคล่อง
ตลาด รายงานข่าว เทคโนโลยี
บิตคอยน์ตกอยู่ท่ามกลางวิกฤตเศรษฐกิจมหภาค: อาร์เธอร์ เฮย์ส เตือนถึงภาวะเงินฝืดที่เกิดจากปัญญาประดิษฐ์ และความไม่แน่นอนของสภาพคล่อง
April 17, 2026
CRYPTOMERIA LABS PTE. บจก.