Звіт про новини Технологія
Січень 28, 2026

Google представляє агентне бачення у Gemini 3 Flash, поєднуючи візуальне мислення з виконанням коду

Коротко

Google представила Agentic Vision у Gemini 3 Flash, що дозволяє моделі поєднувати візуальне мислення з виконанням коду для інтерактивного аналізу зображень на основі доказів.

Google представляє агентне бачення у Gemini 3 Flash, поєднуючи візуальне мислення з виконанням коду

Технологічна компанія Google представила функцію Agentic Vision у Gemini 3 Flash, інструмент, розроблений для інтеграції візуальних міркувань з виконанням коду, що дозволяє моделі базувати свої відповіді на візуальних доказах.

Система Agentic Vision перетворює аналіз зображень зі статичної інтерпретації на активний дослідницький процес. Поєднуючи візуальні міркування з виконуваним кодом, модель може розробляти покрокові плани для дослідження та маніпулювання зображеннями, такими як збільшення масштабу, обрізання, обертання, анотування або виконання обчислень, з метою безпосереднього обґрунтування відповідей візуальними даними.

Було показано, що інтеграція виконання коду в Gemini 3 Flash покращує продуктивність у більшості тестів зору на 5–10%, що забезпечує помітне покращення в завданнях розпізнавання зображень.

Ця функція працює через структурований цикл «Думай, діяй, спостерігай». Під час фази «Думай» модель оцінює запит користувача разом із початковим зображенням і формулює багатоетапний план. На фазі «Дій» вона генерує та виконує код Python для маніпулювання або аналізу зображення. Нарешті, на фазі «Спостерігай» змінене зображення додається до контекстного вікна моделі, що дозволяє системі повторно оцінити візуальну інформацію перед видачею остаточної відповіді.

Завдяки можливості виконання коду через свій API, Gemini 3 Flash розблоковує низку розширених можливостей, багато з яких продемонстровано в демонстраційному додатку, доступному в Google AI Studio. Розробники, від великих платформ, таких як додаток Gemini, до невеликих стартапів, почали використовувати цю функціональність для підтримки різноманітних випадків використання в аналізі зображень, анотаціях та візуальних обчисленнях.

Одне застосування передбачає детальний огляд зображень. Gemini 3 Flash може автоматично збільшувати масштаб дрібнозернистих об'єктів, що дозволяє ітеративний аналіз вхідних даних з високою роздільною здатністю. Наприклад, PlanCheckSolver.com, платформа для перевірки планів будівель на основі штучного інтелекту, повідомила про 5% збільшення точності завдяки використанню виконання коду для дослідження певних розділів архітектурних планів, таких як краї дахів або схеми будівель. Модель генерує код Python для обрізання та аналізу цих областей та реінтегрує їх у своє контекстне вікно, обґрунтовуючи свої висновки точними візуальними доказами.

Ще один варіант використання — анотування зображень. Agentic Vision дозволяє моделі взаємодіяти з візуальним контентом, малюючи безпосередньо на зображеннях. У таких завданнях, як підрахунок цифр на руці, модель може накладати обмежувальні рамки та числові мітки на кожен виявлений палець, створюючи «візуальний блокнот», який гарантує повну відповідність її міркувань спостережуваним пікселям.

Система також підтримує візуальну математику та візуалізацію даних. Gemini 3 Flash може витягувати дані з щільних таблиць та виконувати код Python для створення діаграм або виконання обчислень. На відміну від стандартних мовних моделей, які можуть призводити до помилок у багатокроковій арифметиці, Gemini 3 Flash виконує детермінований код Python для нормалізації даних та створення точних візуальних результатів, таких як професійні стовпчасті діаграми Matplotlib, замінюючи ймовірнісні припущення перевіреними результатами.

Агентське бачення: нові інструменти, ширший доступ та доступність API

Google продовжує розширювати можливості Agentic Vision у Gemini 3 Flash. Наразі модель здатна автоматично визначати, коли збільшувати дрібні деталі, хоча інші функції, такі як обертання зображень або виконання візуальних обчислень, все ще потребують явних підказок. Майбутні оновлення мають на меті зробити ці поведінки повністю неявними.

Компанія також вивчає можливість додавання нових інструментів для моделей Gemini, включаючи пошук в Інтернеті та зворотний пошук зображень, щоб ще більше покращити здатність системи ґрунтувати свої відповіді на інформації з реального світу. Розробляються плани щодо розширення Agentic Vision на додаткові розміри моделей, окрім варіанта Flash, що розширить доступ до цієї технології.

Agentic Vision тепер доступний через Gemini API в Google AI Studio та Vertex AI, і він поступово розгортається в застосунку Gemini, де користувачі можуть отримати до нього доступ, вибравши «Мислення» у спадному списку моделей. Розробники можуть експериментувати з функціональністю, використовуючи демонстрацію в Google AI Studio або ввімкнувши «Виконання коду» в AI Studio Playground.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

інші статті
Аліса Девідсон
Аліса Девідсон

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Затишшя перед штормом Солана: що зараз говорять графіки, кити та сигнали на мережі

Солана продемонструвала високі показники, зумовлені зростанням рівня впровадження, інституційного інтересу та ключових партнерств, водночас стикаючись з потенційними ...

Дізнайтеся більше

Криптовалюта у квітні 2025 року: ключові тенденції, зміни та що буде далі

У квітні 2025 року криптовалютний простір зосередився на зміцненні базової інфраструктури, а Ethereum готувався до Pectra ...

Дізнайтеся більше
Детальніше
Читати далі
QCP: Ралі біткойна до $74 тис. завдяки короткому стиску, непідтверджений прорив на ринках деривативів
ринки Звіт про новини Технологія
QCP: Ралі біткойна до $74 тис. завдяки короткому стиску, непідтверджений прорив на ринках деривативів
15 квітня 2026 року
Stables та Mansa об'єднуються для вирішення проблеми фрагментованої прогалини в інфраструктурі стейблкоїнів в Азії
Звіт про новини Технологія
Stables та Mansa об'єднуються для вирішення проблеми фрагментованої прогалини в інфраструктурі стейблкоїнів в Азії
15 квітня 2026 року
Наступний зсув криптовалют: еволюція цифрових активів Латинської Америки вартістю 1.5 трильйона доларів та гонка за побудову інфраструктури, заснованої на довірі
інтерв'ю Технологія
Наступний зсув криптовалют: еволюція цифрових активів Латинської Америки вартістю 1.5 трильйона доларів та гонка за побудову інфраструктури, заснованої на довірі
15 квітня 2026 року
OKX запускає X-Perps у Європі: криптодеривативи, що регулюються MiFID, що пропонують кредитне плече до 10×
Звіт про новини Технологія
OKX запускає X-Perps у Європі: криптодеривативи, що регулюються MiFID, що пропонують кредитне плече до 10×
15 квітня 2026 року
CRYPTOMERIA LABS PTE. LTD.