аналіз Звіт про новини Технологія
Вересень 06, 2023

LLaVA проти GPT-4: розкриття ШІ з відкритим вихідним кодом, що висвітлює мультимодальний потенціал і математичні обмеження

На недавній презентації GPT-4, однією з видатних особливостей була його здатність брати участь у розмовах, збагачених зображеннями. Однак цю можливість ще належить інтегрувати OpenAIпропозиція. Хоча ми раніше виділили Компетентність Bing у цьому аспекті, тепер з’явилося рішення з відкритим вихідним кодом у формі «Великого помічника з мови та зору» (LLaVA).

Математичні виклики: ШІ з відкритим вихідним кодом LLaVA бореться, на відміну від GPT-4

Мультимодальний потенціал LLaVA

LLaVA — мультимодальний штучний інтелект з відкритим кодом, який поєднує обробку мови та зображення. Можна отримати доступ до демонстраційної версії LLaVA тут.

Дивна річ на цій картині полягає в тому, що чоловік тримає білизняну мотузку з білою сорочкою, коли він висувається з вікна жовтого таксі. Ця ситуація незвичайна, оскільки рідко можна побачити людей, які висуваються з вікон автомобіля, тримаючи в руках одяг або нижню білизну. Ймовірно, чоловік намагається висушити свою сорочку небезпечним і неефективним способом під час руху таксі.

Ми провели простий тест, ввівши зображення таксі та людини, а LLaVA надав мені описовий аналіз. Проте мої спроби оскаржити це за допомогою математичних завдань, подібних до тих, які вирішив Bing, виявилися марними. Схоже, що LLaVA важко справляється з математикою, незважаючи на свій досвід у розпізнаванні зображень.

Проблеми з математичними завданнями

Ми представили LLaVA математичну задачу з використанням тригонометрії, схожу на ті, які успішно розв’язав Bing. На жаль, LLaVA не змогла надати правильне рішення, повернувши помилкову відповідь для квадратного кореня з 169 як 13.2.

Давайте розв’яжемо цей запит

Завдання полягає в тому, щоб визначити довжину діагоналі трикутника зі сторонами 5 см і 12 см. Щоб досягти цього, ми можемо скористатися теоремою Піфагора, яка стверджує, що в прямокутному трикутнику квадрат довжини гіпотенузи (сторона, протилежна прямому куту) дорівнює сумі квадратів двох інших сторін.

У цьому сценарії гіпотенуза відповідає діагоналі трикутника, яку ми можемо визначити, вийнявши квадратний корінь із суми квадратів двох заданих сторін.

Для початку ми повинні знайти довжину діагоналі, яка є стороною, що з’єднує дві несусідні вершини трикутника. У цьому випадку ці дві вершини пов’язані зі сторонами 5 см і 12 см.

Тепер застосуємо теорему Піфагора:

(5 см)^2 + (12 см)^2 = діагональ^2

5^2 + 12^2 = діагональ^2

25 + 144 = діагональ^2

169 = діагональ^2

Нарешті, ми можемо визначити довжину діагоналі, взявши квадратний корінь з обох сторін:

√169 = діагональ

Довжина діагоналі приблизно 13.2 см.

Незвичайний погляд на зображення

LLaVA вирізняється своєю здатністю спілкуватися з зображеннями, хоча проблеми залишаються, зокрема у розв’язанні математичних задач. Наприклад, на зображенні чоловіка, який висунувся з вікна жовтого таксі, тримаючи білизняну мотузку в білій сорочці, LLaVA забезпечила незвичайну перспективу. Це припустило, що така сцена є нетиповою, оскільки рідко можна побачити людей, які висуваються з вікон автомобіля, тримаючи в руках одяг. Аналіз показав, що чоловік, можливо, намагався застосувати нетрадиційний і потенційно небезпечний спосіб висушити свою сорочку під час руху таксі.

Хоча LLaVA пропонує багатообіцяючі мультимодальні можливості, зокрема у спілкуванні з зображеннями, він стикається з обмеженнями у розв’язанні математичних задач. Варто зазначити, що можливості Google у цьому плані перевершують можливості LLaVA, що підтверджено більш точним вирішенням аналогічної математичної задачі.

Розробка штучного інтелекту з мультимодальними можливостями, безсумнівно, є захоплюючим досягненням, і LLaVA є похвальним зусиллям із відкритим кодом у цьому напрямку. Однак для підвищення його математичних властивостей необхідні вдосконалення здібності до міркування відповідати його навикам аналізу зображень.

Для більш точного математичного рішення можливості Google наразі перевершують: Розв’язувач математичних задач Google.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Pyth Network розгортає Pull Oracle на Solana, надаючи розробникам доступ до цін Oracle
Звіт про новини Технологія
Pyth Network розгортає Pull Oracle на Solana, надаючи розробникам доступ до цін Oracle
17 Червня, 2024.
ШІ та ігрові партнери Aethir Airdrop Токени власникам вузла перевірки
Featured Звіт про новини Технологія
ШІ та ігрові партнери Aethir Airdrop Токени власникам вузла перевірки
17 Червня, 2024.
Notional Finance повністю припинить підтримку V2 до кінця липня, закликає користувачів перейти на V3
Звіт про новини Технологія
Notional Finance повністю припинить підтримку V2 до кінця липня, закликає користувачів перейти на V3
17 Червня, 2024.
Tether запускає платформу Alloy за підтримки Tether Gold і представляє перший токен aUSD₮
ринки Звіт про новини Технологія
Tether запускає платформу Alloy за підтримки Tether Gold і представляє перший токен aUSD₮
17 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.