LLaVA против. GPT-4: Разбор ИИ с открытым исходным кодом, подчеркивающий мультимодальный потенциал и математические ограничения
На недавней презентации GPT-4, одной из выдающихся особенностей была его способность участвовать в разговорах, обогащенных изображениями. Однако эта возможность еще не интегрирована в OpenAIпредлагает. Хотя мы ранее подчеркивали Компетенция Bing в этом аспекте, теперь появилось решение с открытым исходным кодом в виде «Large Language and Vision Assistant» (ЛЛаВА).
Мультимодальный потенциал LLaVA
LLaVA — это мультимодальный ИИ с открытым исходным кодом, который сочетает в себе обработку языка и зрения. Доступна демо-версия LLaVA. здесь.
Мы провели простой тест, введя изображение Такси и мужчины, и LLaVA предоставила мне описательный анализ. Однако мои попытки бросить ему вызов с помощью математических задач, подобных тем, которые решает Bing, оказались тщетными. У LLaVA, похоже, проблемы с математикой, несмотря на свои навыки в распознавании изображений.
Проблемы с математическими задачами
Мы представили LLaVA математическую задачу, связанную с тригонометрией, подобную тем, которые успешно решил Bing. К сожалению, LLaVA не смогла предоставить правильное решение, вернув ошибочный ответ на квадратный корень из 169 как 13.2.
Давайте решим этот запрос
Задача состоит в том, чтобы определить длину диагонали треугольника со сторонами 5 см и 12 см. Для этого мы можем использовать теорему Пифагора, которая гласит, что в прямоугольном треугольнике квадрат длины гипотенузы (стороны, противоположной прямому углу) равен сумме квадратов двух других сторон.
В этом сценарии гипотенуза соответствует диагонали треугольника, которую мы можем определить, извлекая квадратный корень из суммы квадратов двух данных сторон.
Для начала мы должны найти длину диагонали, которая является стороной, соединяющей две несмежные вершины треугольника. В данном случае этим двум вершинам соответствуют стороны размером 5 см и 12 см.
Теперь применим теорему Пифагора:
(5 см)^2 + (12 см)^2 = диагональ^2
5^2 + 12^2 = диагональ^2
25 + 144 = диагональ^2
169 = диагональ^2
Наконец, мы можем определить длину диагонали, извлекая квадратный корень из обеих сторон:
√169 = диагональ
Длина диагонали примерно 13.2 см.
Необычный взгляд на изображения
LLaVA превосходно умеет общаться с изображениями, хотя проблемы сохраняются, особенно в решении математических задач. Например, когда LLaVA представила изображение мужчины, высунувшегося из желтого окна такси, держащего белую рубашку за веревку для белья, LLaVA представила необычную перспективу. Было высказано предположение, что такая сцена нетипична, поскольку нечасто можно увидеть, как люди высовываются из окон машины, держа в руках одежду. Анализ показал, что мужчина, возможно, пытается использовать нетрадиционный и потенциально небезопасный метод сушки рубашки во время движения такси.
Хотя LLaVA предлагает многообещающие мультимодальные возможности, особенно при работе с изображениями, он сталкивается с ограничениями в решении математических задач. Стоит отметить, что возможности Google в этом отношении превосходят возможности LLaVA, о чем свидетельствует более точное решение аналогичной математической задачи.
Разработка искусственного интеллекта с мультимодальными возможностями, несомненно, является захватывающим достижением, и LLaVA является похвальным проектом с открытым исходным кодом в этом направлении. Однако необходимы улучшения для улучшения его математического способности к рассуждению чтобы соответствовать его навыкам в анализе изображений.
Для более точного математического решения возможности Google на данный момент превосходят: Решение математических задач Google.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.