Новостной репортаж Технологии
29 мая 2023

Google научил AI-модель Flamingo писать описания для видео на YouTube

Коротко

Flamingo решает проблему коротких видеороликов, которые сложно найти через поиск, автоматически создавая описания.

Google DeepMind, исследовательская лаборатория искусственного интеллекта, развитый модель визуального языка под названием Flamingo, способная писать описания для коротких видеороликов на YouTube. Проблема, которую решает Flamingo, заключается в том, что короткие видеоролики часто трудно найти с помощью поиска из-за отсутствия необходимой информации в описании. Модель Flamingo решает эту проблему, автоматически генерируя тексты для миллионов коротких видеороликов на видеохостингах, которые используются «за кулисами» для облегчения поиска. Хотя авторы видео не увидят метаданные, они помогут зрителям находить короткометражки и перемещаться по ним. В настоящее время Flamingo уже давно работает над новыми клипами и обработкой старых роликов, загруженных на YouTube.

Google научил AI-модель Flamingo писать описания для видео на YouTube
Deepmind.com

В прошлом Google представил алгоритм, который позволяет людям искать информацию внутри видео с помощью панели поиска. Недавно TwelveLabs привлекла от инвесторов 12 миллионов долларов на аналогичную разработку. Эти инструменты открывают новые возможности для видео создатели контента для увеличения их охвата и видимости. Используя искусственный интеллект для улучшения и упрощения процесса поиска и обнаружения краткого контента, DeepMind и аналогичные стартапы революционизируют видео. Потоковые службы. Они вносят свой вклад в разработку более интеллектуальных и эффективных поисковых технологий, упрощая для зрителей поиск контента, который их действительно интересует.

Искусственный интеллект играет значительную роль в совершенствовании поисковых технологий. Используя искусственный интеллект, модель Flamingo может сканировать и сериализовать контент, а также генерировать тексты, обобщающие контент, чтобы помочь пользователям ориентироваться. Модель Flamingo использует глубокие нейронные сети для создания текстовых описаний видеоклипа на основе аудио- и визуального содержания видео. Он может захватывать слуховые и визуальные компоненты короткого контента и преобразовывать их в сводку, которую пользователям легко найти и получить к ней доступ.

Использование ИИ может помочь определить важную информацию для пользователей, которая может быть упущена при ручных усилиях создателей при добавлении описаний. Отнимающие много времени усилия по ручному захвату каждой детали не всегда практичны, особенно с постоянным потоком короткого видеоконтента, загружаемого на такие платформы, как YouTube. Это может привести к путанице и разочарованию пользователей при поиске определенного краткого контента. Однако при использовании моделей визуального языка, таких как Flamingo, метаданные могут генерироваться автоматически, чтобы предоставить сводку для легкого доступа, что экономит время и делает процесс поиска более эффективным и точным.

Flamingo устанавливает новые современные модели визуального языка для открытых задач

Наиболее важными деталями являются введение Flamingo, единой модели визуального языка (VLM), который устанавливает новый уровень техники в области однократного обучения широкому кругу открытых мультимодальных задач. Flamingo — это единая модель визуального языка (VLM), котораяdefiЭто несложное обучение по широкому кругу открытых мультимодальных видов деятельности. Он получает подсказка состоящий из чередующихся изображений, видео и текста в качестве входных данных и выходных данных на соответствующем языке. Визуальный и текстовый интерфейс Flamingo, как и у больших языковых моделей (LLM), может привести модель к достижению мультимодальной цели. Модели можно задать вопрос со свежим изображением или видео, а затем построить ответ, учитывая несколько примеров пар визуальных входных данных и ожидаемых текстовых ответов, составленных в подсказке Flamingo.

Flamingo — это визуальная языковая модель, которая объединяет большие языковые модели с мощными визуальными представлениями и обучается на сочетании дополнительных крупномасштабных мультимодальных данных, поступающих только из Интернета, без использования каких-либо данных, аннотированных для целей машинного обучения. Он превосходит все предыдущие подходы к обучению с использованием нескольких подходов, когда дается всего четыре примера на задачу, и превосходит методы, которые точно настраиваются и оптимизируются для каждой задачи независимо и используют на несколько порядков больше данных, специфичных для задачи. Кроме того, были протестированы качественные возможности модели, выходящие за рамки ее текущих эталонных показателей, таких как добавление подписей к изображениям, связанным с полом и цветом кожи, и запуск сгенерированных подписей через API Google Perspective, который оценивает токсичность текста. Flamingo позволяет эффективно адаптироваться к этим примерам и другим задачам на лету без изменения модели и демонстрирует готовые возможности мультимодального диалога.

Flamingo — это семейство моделей общего назначения, которые можно применять к задачам понимания изображений и видео с минимальными примерами для конкретных задач. Это эффективное и действенное семейство моделей общего назначения, которые можно применять к задачам понимания изображений и видео с минимальными примерами для конкретных задач. Возможности Flamingo открывают путь к богатому взаимодействию с изученными моделями визуального языка, которые могут обеспечить лучшую интерпретируемость и новые интересные приложения, такие как визуальный помощник.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
Бизнес Новостной репортаж Технологии
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
3 мая 2024
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
Области применения: Новостной репортаж Технологии
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
3 мая 2024
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
Области применения: Новостной репортаж Технологии
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
3 мая 2024
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
Бизнес Новостной репортаж Технологии
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
3 мая 2024
CRYPTOMERIA LABS PTE. ООО