29 мая 2023

Google научил AI-модель Flamingo писать описания для видео на YouTube

by Дамир Ялалов

Опубликовано: 29 мая 2023 г., 2:00 Обновлено: 29 мая 2023 г., 10:55

by Каролина Гащ

Отредактировано и проверено фактами: 29 мая 2023 г., 2:00.

Коротко

Flamingo решает проблему коротких видеороликов, которые сложно найти через поиск, автоматически создавая описания.

Google DeepMind, исследовательская лаборатория искусственного интеллекта, развитый модель визуального языка под названием Flamingo, способная писать описания для коротких видеороликов на YouTube. Проблема, которую решает Flamingo, заключается в том, что короткие видеоролики часто трудно найти с помощью поиска из-за отсутствия необходимой информации в описании. Модель Flamingo решает эту проблему, автоматически генерируя тексты для миллионов коротких видеороликов на видеохостингах, которые используются «за кулисами» для облегчения поиска. Хотя авторы видео не увидят метаданные, они помогут зрителям находить короткометражки и перемещаться по ним. В настоящее время Flamingo уже давно работает над новыми клипами и обработкой старых роликов, загруженных на YouTube.

Google научил AI-модель Flamingo писать описания для видео на YouTube — Deepmind.com

В прошлом Google представил алгоритм, который позволяет людям искать информацию внутри видео с помощью панели поиска. Недавно TwelveLabs привлекла от инвесторов 12 миллионов долларов на аналогичную разработку. Эти инструменты открывают новые возможности для видео создатели контента для увеличения их охвата и видимости. Используя искусственный интеллект для улучшения и упрощения процесса поиска и обнаружения краткого контента, DeepMind и аналогичные стартапы революционизируют видео. Потоковые службы. Они вносят свой вклад в разработку более интеллектуальных и эффективных поисковых технологий, упрощая для зрителей поиск контента, который их действительно интересует.

Искусственный интеллект играет значительную роль в совершенствовании поисковых технологий. Используя искусственный интеллект, модель Flamingo может сканировать и сериализовать контент, а также генерировать тексты, обобщающие контент, чтобы помочь пользователям ориентироваться. Модель Flamingo использует глубокие нейронные сети для создания текстовых описаний видеоклипа на основе аудио- и визуального содержания видео. Он может захватывать слуховые и визуальные компоненты короткого контента и преобразовывать их в сводку, которую пользователям легко найти и получить к ней доступ.

Использование ИИ может помочь определить важную информацию для пользователей, которая может быть упущена при ручных усилиях создателей при добавлении описаний. Отнимающие много времени усилия по ручному захвату каждой детали не всегда практичны, особенно с постоянным потоком короткого видеоконтента, загружаемого на такие платформы, как YouTube. Это может привести к путанице и разочарованию пользователей при поиске определенного краткого контента. Однако при использовании моделей визуального языка, таких как Flamingo, метаданные могут генерироваться автоматически, чтобы предоставить сводку для легкого доступа, что экономит время и делает процесс поиска более эффективным и точным.

Flamingo устанавливает новые современные модели визуального языка для открытых задач

Наиболее важными деталями являются введение Flamingo, единой модели визуального языка (VLM), который устанавливает новый уровень техники в области однократного обучения широкому кругу открытых мультимодальных задач. Flamingo — это единая модель визуального языка (VLM), котораяdefiЭто несложное обучение по широкому кругу открытых мультимодальных видов деятельности. Он получает подсказка состоящий из чередующихся изображений, видео и текста в качестве входных данных и выходных данных на соответствующем языке. Визуальный и текстовый интерфейс Flamingo, как и у больших языковых моделей (LLM), может привести модель к достижению мультимодальной цели. Модели можно задать вопрос со свежим изображением или видео, а затем построить ответ, учитывая несколько примеров пар визуальных входных данных и ожидаемых текстовых ответов, составленных в подсказке Flamingo.

Flamingo — это визуальная языковая модель, которая объединяет большие языковые модели с мощными визуальными представлениями и обучается на сочетании дополнительных крупномасштабных мультимодальных данных, поступающих только из Интернета, без использования каких-либо данных, аннотированных для целей машинного обучения. Он превосходит все предыдущие подходы к обучению с использованием нескольких подходов, когда дается всего четыре примера на задачу, и превосходит методы, которые точно настраиваются и оптимизируются для каждой задачи независимо и используют на несколько порядков больше данных, специфичных для задачи. Кроме того, были протестированы качественные возможности модели, выходящие за рамки ее текущих эталонных показателей, таких как добавление подписей к изображениям, связанным с полом и цветом кожи, и запуск сгенерированных подписей через API Google Perspective, который оценивает токсичность текста. Flamingo позволяет эффективно адаптироваться к этим примерам и другим задачам на лету без изменения модели и демонстрирует готовые возможности мультимодального диалога.

Flamingo — это семейство моделей общего назначения, которые можно применять к задачам понимания изображений и видео с минимальными примерами для конкретных задач. Это эффективное и действенное семейство моделей общего назначения, которые можно применять к задачам понимания изображений и видео с минимальными примерами для конкретных задач. Возможности Flamingo открывают путь к богатому взаимодействию с изученными моделями визуального языка, которые могут обеспечить лучшую интерпретируемость и новые интересные приложения, такие как визуальный помощник.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов