Анализ Новостной репортаж Технологии
06 сентября, 2023

LLaVA против. GPT-4: Разбор ИИ с открытым исходным кодом, подчеркивающий мультимодальный потенциал и математические ограничения

На недавней презентации GPT-4, одной из выдающихся особенностей была его способность участвовать в разговорах, обогащенных изображениями. Однако эта возможность еще не интегрирована в OpenAIпредлагает. Хотя мы ранее подчеркивали Компетенция Bing в этом аспекте, теперь появилось решение с открытым исходным кодом в виде «Large Language and Vision Assistant» (ЛЛаВА).

Математические проблемы: борьба с искусственным интеллектом с открытым исходным кодом LLaVA, в отличие от GPT-4

Мультимодальный потенциал LLaVA

LLaVA — это мультимодальный ИИ с открытым исходным кодом, который сочетает в себе обработку языка и зрения. Доступна демо-версия LLaVA. здесь.

Странность этой фотографии заключается в том, что мужчина держит бельевую веревку с белой рубашкой, высунувшись из окна желтого такси. Эта ситуация необычна, поскольку редко можно увидеть людей, высунувшихся из окон автомобиля, держа в руках одежду или нижнее белье. Вероятно, мужчина пытается высушить рубашку небезопасным и неэффективным способом во время движения такси.

Мы провели простой тест, введя изображение Такси и мужчины, и LLaVA предоставила мне описательный анализ. Однако мои попытки бросить ему вызов с помощью математических задач, подобных тем, которые решает Bing, оказались тщетными. У LLaVA, похоже, проблемы с математикой, несмотря на свои навыки в распознавании изображений.

Проблемы с математическими задачами

Мы представили LLaVA математическую задачу, связанную с тригонометрией, подобную тем, которые успешно решил Bing. К сожалению, LLaVA не смогла предоставить правильное решение, вернув ошибочный ответ на квадратный корень из 169 как 13.2.

Давайте решим этот запрос

Задача состоит в том, чтобы определить длину диагонали треугольника со сторонами 5 см и 12 см. Для этого мы можем использовать теорему Пифагора, которая гласит, что в прямоугольном треугольнике квадрат длины гипотенузы (стороны, противоположной прямому углу) равен сумме квадратов двух других сторон.

В этом сценарии гипотенуза соответствует диагонали треугольника, которую мы можем определить, извлекая квадратный корень из суммы квадратов двух данных сторон.

Для начала мы должны найти длину диагонали, которая является стороной, соединяющей две несмежные вершины треугольника. В данном случае этим двум вершинам соответствуют стороны размером 5 см и 12 см.

Теперь применим теорему Пифагора:

(5 см)^2 + (12 см)^2 = диагональ^2

5^2 + 12^2 = диагональ^2

25 + 144 = диагональ^2

169 = диагональ^2

Наконец, мы можем определить длину диагонали, извлекая квадратный корень из обеих сторон:

√169 = диагональ

Длина диагонали примерно 13.2 см.

Необычный взгляд на изображения

LLaVA превосходно умеет общаться с изображениями, хотя проблемы сохраняются, особенно в решении математических задач. Например, когда LLaVA представила изображение мужчины, высунувшегося из желтого окна такси, держащего белую рубашку за веревку для белья, LLaVA представила необычную перспективу. Было высказано предположение, что такая сцена нетипична, поскольку нечасто можно увидеть, как люди высовываются из окон машины, держа в руках одежду. Анализ показал, что мужчина, возможно, пытается использовать нетрадиционный и потенциально небезопасный метод сушки рубашки во время движения такси.

Хотя LLaVA предлагает многообещающие мультимодальные возможности, особенно при работе с изображениями, он сталкивается с ограничениями в решении математических задач. Стоит отметить, что возможности Google в этом отношении превосходят возможности LLaVA, о чем свидетельствует более точное решение аналогичной математической задачи.

Разработка искусственного интеллекта с мультимодальными возможностями, несомненно, является захватывающим достижением, и LLaVA является похвальным проектом с открытым исходным кодом в этом направлении. Однако необходимы улучшения для улучшения его математического способности к рассуждению чтобы соответствовать его навыкам в анализе изображений.

Для более точного математического решения возможности Google на данный момент превосходят: Решение математических задач Google.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Side Protocol запускает стимулирующую тестовую сеть и вводит систему инсайдерских баллов, позволяющую пользователям зарабатывать баллы SIDE
Области применения: Новостной репортаж Технологии
Side Protocol запускает стимулирующую тестовую сеть и вводит систему инсайдерских баллов, позволяющую пользователям зарабатывать баллы SIDE
9 мая 2024
Web3 и криптособытия в мае 2024 года: изучение новых технологий и новых тенденций в области блокчейна и DeFi
Digest Бизнес Области применения: Технологии
Web3 и криптособытия в мае 2024 года: изучение новых технологий и новых тенденций в области блокчейна и DeFi
9 мая 2024
Notcoin будет запущен на OKX Jumpstart и предложит 1.25% от общего количества токенов для майнинга
Области применения: Новостной репортаж Технологии
Notcoin будет запущен на OKX Jumpstart и предложит 1.25% от общего количества токенов для майнинга
9 мая 2024
Puffer Finance запускает свою основную сеть и расширяет возможности операторов узлов для децентрализации сети
Новостной репортаж Технологии
Puffer Finance запускает свою основную сеть и расширяет возможности операторов узлов для децентрализации сети
9 мая 2024
CRYPTOMERIA LABS PTE. ООО