Новостной репортаж СМЗ Технологии
24 апреля 2023

МиниGPT-4: Новая модель искусственного интеллекта для описания сложных изображений

Коротко

МиниGPT-4 это модель искусственного интеллекта, которая сочетает в себе визуальная обработка с пониманием языка.

Он использует замороженный визуальный кодировщик под названием Vicuna и GPT-4, последняя модель большого языка от OpenAI.

МиниGPT-4 может генерировать точные описания изображений, писать тексты на основе изображений, предлагать решения проблем, изображенных на изображениях, и даже учить пользователей делать определенные действия на основе фотографий.

Понимание того, как интерпретировать и описывать визуальный контент, необходимо для широкого спектра приложений, от электронной коммерции до социальных сетей. Входить МиниGPT-4, новейшая модель искусственного интеллекта, которая сочетает в себе мощь обработки изображений с передовым пониманием языка. 

МиниGPT-4 использует замороженный визуальный кодировщик и большую языковую модель, соединенную через один проекционный слой, для создания точных описаний изображений, написания рассказов и стихов на основе изображений, предоставления решений проблем, изображенных на изображениях, и даже обучения пользователей приготовлению пищи на основе еды. фото. 

МиниGPT-4: Новая модель искусственного интеллекта для описания сложных изображений
через MiniGPT-4

Модель очень эффективна: требуется только выравнивание 5 миллионов пар изображение-текст для обучения линейного слоя, который выравнивает визуальные признаки с замороженной моделью большого языка Vicuna. 

Викунья построена на LLaMA и может выполнять сложные лингвистические задачи. GPT-4, последняя модель большого языка от OpenAI, мощность МиниGPT-4. Мультимодальный характер GPT-4 отличает его от своих предшественников, делая его пригодным для различных приложений, включая видеоигры, Chrome расширенийи сложные логические вопросы.

МиниGPT-4 продемонстрировал схожие способности с GPT-4, например создание подробных описаний изображений и создание веб-сайтов на основе рукописных проектов. Чтобы улучшить вывод модели на языке, был выбран лучший набор данных для дальнейшей тонкой настройки с использованием диалогового шаблона. Это привело к улучшению генерации языка, повышению надежности и общего удобства использования.

Исключительные возможности модели обусловлены ее двухступенчатый тренировочный процесс, что позволяет MiniGPT для создания точных и естественных языковых описаний изображений. На первом этапе МиниGPT-4 Как упоминалось выше, обучается на миллионах пар изображение-текст, что позволяет ему узнавать об объектах, людях и местах и ​​описывать их словами. Такое предварительное обучение занимает около 10 часов и требует четырех графических процессоров A100 (80 ГБ). Выходные данные этого этапа формируются преобразователем зрения на основе входного изображения.

Однако первый этап предварительной подготовки может привести к отсутствию связности результатов, например, к повторяющимся фразам, фрагментированным предложениям или нерелевантному содержанию. Чтобы решить эту проблему, MiniGPT-4 проходит второй этап обучения, на котором меньший, но высококачественный набор данных пар изображение-текст используется для точной настройки текстовых описаний модели, чтобы они были более точными и естественными.

От создания макетов веб-сайтов до решения проблем, изображенных на изображениях, MiniGPT-4 — впечатляющий шаг вперед в мире искусственного интеллекта, и это только начало.

Прочитайте больше:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Агне — журналист, освещающий последние тенденции и разработки в области метавселенной, искусственного интеллекта и Web3 отрасли для Metaverse Post. Ее страсть к рассказыванию историй побудила ее проводить многочисленные интервью с экспертами в этих областях, всегда стремясь раскрыть захватывающие и увлекательные истории. Агне имеет степень бакалавра литературы и имеет обширный опыт написания статей на самые разные темы, включая путешествия, искусство и культуру. Она также работала волонтером в качестве редактора организации по защите прав животных, где помогала повышать осведомленность о проблемах защиты животных. Свяжитесь с ней по [электронная почта защищена].

Другие статьи
Агне Цимерман
Агне Цимерман

Агне — журналист, освещающий последние тенденции и разработки в области метавселенной, искусственного интеллекта и Web3 отрасли для Metaverse Post. Ее страсть к рассказыванию историй побудила ее проводить многочисленные интервью с экспертами в этих областях, всегда стремясь раскрыть захватывающие и увлекательные истории. Агне имеет степень бакалавра литературы и имеет обширный опыт написания статей на самые разные темы, включая путешествия, искусство и культуру. Она также работала волонтером в качестве редактора организации по защите прав животных, где помогала повышать осведомленность о проблемах защиты животных. Свяжитесь с ней по [электронная почта защищена].

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Переход Дональда Трампа к криптовалюте: от противника к защитнику и что это значит для рынка криптовалют США
Бизнес Области применения: Истории и обзоры Технологии
Переход Дональда Трампа к криптовалюте: от противника к защитнику и что это значит для рынка криптовалют США
10 мая 2024
Layer3 выпустит токен L3 этим летом, выделив 51% от общего объема поставок сообществу
Области применения: Новостной репортаж Технологии
Layer3 выпустит токен L3 этим летом, выделив 51% от общего объема поставок сообществу
10 мая 2024
Последнее предупреждение Эдварда Сноудена разработчикам биткойнов: «Сделайте конфиденциальность приоритетом на уровне протокола, иначе рискуете ее потерять»
Области применения: Безопасность Wiki Software Истории и обзоры Технологии
Последнее предупреждение Эдварда Сноудена разработчикам биткойнов: «Сделайте конфиденциальность приоритетом на уровне протокола, иначе рискуете ее потерять»
10 мая 2024
Сеть Ethereum Layer 2, основанная на оптимизме, запустит свою основную сеть 15 мая
Новостной репортаж Технологии
Сеть Ethereum Layer 2, основанная на оптимизме, запустит свою основную сеть 15 мая
10 мая 2024
CRYPTOMERIA LABS PTE. ООО