Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT
Коротко
Otter — это визуальная языковая модель (VLM), построенная на платформе OpenFlamingo и призванная революционизировать визуальное понимание и взаимодействие с визуальным контентом.
Выдра — это передовая модель визуального языка (VLM), построенная на OpenFlamingo платформу, и она предназначена для улучшения нашего взаимодействия с визуальным контентом. В рамках амбициозного проекта Otter Microsoft ввел массивный поучительный набор визуально-текстовых данных под названием МИМИК-ИТ. Этот набор данных содержит ошеломляющие 2.8 миллиона пар связанных мультимодальных инструкций с ответами, в том числе 2.2 миллиона уникальных инструкций, полученных из изображений и видео. Набор данных был тщательно отобран для имитации естественных диалогов, охватывающих такие сценарии, как описание изображений и видео, сравнение изображений, ответы на вопросы, понимание сцены и многое другое. Эти высококачественные пары инструкция-ответ были сгенерированы с использованием мощного ChatGPT-0301 API, что представляет собой инвестиции в размере около 20 тысяч долларов.
Набор данных MIMIC-IT играет решающую роль в обучении модели Otter, которая была разработана, чтобы преуспеть в понимании визуальных сцен, рассуждений и логических выводов. Каждая пара инструкция-ответ в наборе данных сопровождается мультимодальной контекстной информацией, создавая диалоговые контексты, которые позволяют модели понять нюансы восприятия, рассуждений и планирования. Чтобы масштабировать процесс аннотирования, Microsoft использовала автоматический конвейер аннотирования под названием Syphus, который сочетает в себе человеческий опыт и возможности GPT для обеспечения качества и разнообразия набора данных.
Используя набор данных MIMIC-IT, Microsoft обучила модель Otter, крупномасштабную VLM на основе платформы OpenFlamingo. Благодаря обширным оценкам эталонных показателей языка зрения Оттер продемонстрировал замечательные навыки в мультимодальном восприятии, рассуждении и обучении в контексте. Человеческие оценки показали его способность эффективно согласовываться с намерениями пользователя, что делает его бесценным инструментом для интерпретации и выполнения сложных задач на основе инструкций на естественном языке.
Otter v0.2 расширил свои возможности для поддержки видеовходов, что позволяет кадры процесса и несколько изображений в качестве контекстных примеров.
Выпуск набора данных MIMIC-IT вместе с конвейером сбора инструкций и ответов, тестами и моделью Otter представляет собой важную веху в области мультимодальной языковой обработки. Предоставляя эти ресурсы исследователям и разработчикам, Microsoft стремится способствовать инновациям и сотрудничеству, позволяя интегрировать Otter и OpenFlamingo в настраиваемые конвейеры обучения и логических выводов с использованием популярных Обнимая лицо Каркас трансформеров.
Набор данных MIMIC-IT охватывает широкий спектр сценариев реальной жизни, позволяя моделям Vision-Language Models (VLM) понимать общие сцены, рассуждать о контексте и разумно различать наблюдения. Это открывает возможности, такие как разработка эгоцентричных моделей визуальных помощников, которые могут отвечать на такие вопросы, как «Эй, ты думаешь, я забыл свои ключи на столе?».
MIMIC-IT не ограничивается английским языком. Он также поддерживает несколько языков, включая китайский, корейский, японский, немецкий, французский, испанский и арабский. Эта многоязычная поддержка позволяет более широкой аудитории по всему миру пользоваться удобством и преимуществами ИИ.
Чтобы обеспечить генерацию высококачественных пар инструкция-ответ, Microsoft представила Syphus, автоматизированный конвейер, который включает системные сообщения, визуальные аннотации и контекстные примеры в качестве подсказок для ChatGPT. Это обеспечивает надежность и точность сгенерированных пар инструкция-ответ на нескольких языках.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.