OpenFlamingo: новая платформа преобразования изображения в текст с открытым исходным кодом от Meta AI и LAION
Коротко
OpenFlamingo — это версия модели Flamingo от DeepMind с открытым исходным кодом, построенная на основе LLaMA большая языковая модель.
Разработчики надеются создать мультимодальную систему, способную решать проблемы визуального языка и равную GPT-4его сила и адаптивность в обработке визуального и текстового ввода.
Версия модели Flamingo от DeepMind с открытым исходным кодом, OpenFlamingo, только что был выпущен. OpenFlamingo, по сути, представляет собой платформу, которая позволяет обучать и оценивать крупные мультимодальные модели (LMM). OpenFlamingo построен на основе LLaMA большая языковая модель, разработанная Meta AI.
Прочитайте больше: Как использовать Midjourney бесплатно навсегда: 5 простых шагов |
Вклад разработчиков в этот первый выпуск заключается в следующем:
- Большой мультимодальный набор данных, сочетающий текстовые и визуальные последовательности.
- Эталон для оценки обучения в контексте деятельности, включая зрение и язык.
- Предварительная версия нашего LLaMAоснованная на OpenFlamingo-9B модель.
С помощью OpenFlamingo разработчики надеются создать мультимодальную систему, способную решать различные задачи, связанные с языком видения. Конечная цель – достичь равенства GPT-4его сила и адаптивность в обработке визуального и текстового ввода. Для достижения этой цели разработчики разрабатывают версию модели Flamingo от DeepMind с открытым исходным кодом, LMM, способную обрабатывать и анализировать изображения, видео и текст. Разработчики стремятся разрабатывать модели с полностью открытым исходным кодом, поскольку считают, что прозрачность имеет решающее значение для развития сотрудничества, ускорения развития и демократизации доступа к передовым LMM.
Они обеспечивают начальную контрольную точку нашей модели OpenFlamingo-9B. Хотя модель еще не полностью оптимизирована, она показывает перспективность проекта. Разработчики могут лучше обучать LMM, сотрудничая и получая отзывы от сообщества. Они приглашают общественность внести свой вклад и добавить в репозиторий, чтобы принять участие в процессе разработки.
Реализация очень похожа на реализацию Flamingo. Модели Flamingo должны быть обучены на крупномасштабных наборах веб-данных с чередованием текста и графика вооружить их навыками быстрого обучения в контексте. В OpenFlamingo реализована та же архитектура, которая была предложена в исходном исследовании Flamingo (ресэмплеры Perceiver, уровни перекрестного внимания). Но поскольку обучающие данные Flamingo недоступны для широкой публики, разработчики используют наборы данных с открытым исходным кодом для обучения моделей. Недавно опубликованная контрольная точка OpenFlamingo-9B была специально обучена на 10 млн образцов из LAION-2B и 5 млн образцов из нового мультимодального набора данных C4.
Разработчики также включили контрольную точку из нашего незаконченного LMM OpenFlamingo-9B, основанного на LLaMA 7Б и CLIP ВиТ/Л-14, в составе релиза. Несмотря на то, что эта концепция все еще находится в разработке, сообщество уже может получить от нее большую пользу.
Для начала посмотрите на GitHub источник и демонстрация.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.