Новостной репортаж СМЗ Технологии
26 июня 2023

Meta AI разрабатывает алгоритм, который позволяет роботам обучаться задачам из видео на YouTube

Коротко

Исследователи разработали модель визуальной доступности, используя интернет-видео о человеческом поведении, чтобы обучать роботов выполнять сложные задачи.

Этот подход устраняет разрыв между статическими наборами данных и реальными роботизированными приложениями.

Исследователи используют крупномасштабные наборы видеоданных о людях, такие как Ego4D и Epic Kitchens, для извлечения возможностей, объединяя методы компьютерного зрения с роботизированными манипуляциями.

Концепция Vision-Robotics Bridge (VRB) демонстрирует потенциал этого подхода, позволяя роботам учиться на человеческих видео и приобретать навыки, необходимые для выполнения сложных задач.

Meta AI представила новый алгоритм, который позволяет роботам учиться и воспроизводить действия человека, просматривая видео на YouTube. В недавней статье под названием «Возможности человеческого видео как универсального представления робототехники», авторы исследуют, как можно использовать видеозаписи человеческих взаимодействий для обучения роботов выполнению сложных задач.

Meta AI разрабатывает алгоритм, который позволяет роботам обучаться задачам из видео на YouTube
Кредит: Metaverse Post (mpost.ио)

Это исследование направлено на преодоление разрыва между статическими наборами данных и реальными приложениями для роботов. В то время как предыдущие модели продемонстрировали успех на статических наборах данных, применение этих моделей непосредственно к роботам остается проблемой. Исследователи предлагают обучение модели визуальной аффорданса с использованием интернет-видео человеческого поведения. Эта модель оценивает, где и как человек может взаимодействовать в сцене, предоставляя ценную информацию для роботов.

Понятие «возможности» является центральным в этом подходе. Возможности относятся к потенциальным действиям или взаимодействиям, которые предлагает объект или среда. Понимая возможности через человеческие видео, робот получает универсальное представление, которое позволяет ему выполнять различные сложные задачи. Исследователи интегрируют свою модель доступности с четырьмя различными парадигмами обучения роботов: автономное имитационное обучение, исследование, целенаправленное обучение и параметризация действий для обучения. усиление обучения.

Рекомендуется: Более 100 слов, обнаруживаемых детекторами ИИ в 2023 году

Чтобы извлечь аффордансы, исследователи используют крупномасштабные наборы видеоданных о людях, такие как Эго4Д и Эпические кухни. Они используют готовые детекторы взаимодействия руки с объектом для определения области контакта и отслеживания траектории движения запястья после контакта. Однако возникает важная проблема, когда человек все еще присутствует в сцене, вызывая сдвиг распределения. Чтобы решить эту проблему, исследователи используют доступную информацию с камеры для проецирования точек контакта и траектории после контакта на независимую от человека рамку, которая служит входными данными для их модели.

Раньше роботы могли имитировать действия, но их возможности ограничивались воспроизведением определенных сред. С помощью последнего алгоритма исследователи добились значительного прогресса в «обобщении» действий роботов. Теперь роботы могут применять полученные знания в новых и незнакомых условиях. Это достижение согласуется с видением достижения общего искусственного интеллекта (AGI), как утверждает исследователь ИИ Ян ЛеКун.

Рекомендуется: GPT-4 Решает вопросы экзамена MIT со 100% точностью? Неправда, говорят исследователи
Модель принимает в качестве входных данных кадр, не зависящий от человека, и выдает два ключевых результата.
Модель принимает в качестве входных данных кадр, не зависящий от человека, и выдает два ключевых результата: контактную тепловую карту и путевые точки запястья. Тепловая карта контакта указывает вероятные точки контакта, а путевые точки на запястье предсказывают траекторию после контакта. Эти выходные данные можно напрямую использовать во время вывода, используя разреженную трехмерную информацию, такую ​​как глубина и кинематика робота. / Кредит: robo-affordances.github.io

Meta AI стремится развивать область компьютерного зрения и планирует поделиться кодом и набором данных своего проекта. Это позволит другим исследователям и разработчикам продолжить изучение и развитие этой технологии. Благодаря расширенному доступу к коду и набору данных разработка самообучающихся роботов, способных приобретать новые навыки из YouTube видео будет продолжать прогрессировать.

Модель принимает в качестве входных данных кадр, не зависящий от человека, и выдает два ключевых результата.
Чтобы оценить эффективность своего подхода, исследователи провели эксперименты в четырех реальных средах, включая десять различных задач и две роботизированные платформы, работающие в дикой природе. Результаты продемонстрировали бесшовную интеграцию методы компьютерного зрения с роботизированными манипуляциями, демонстрируя потенциал своей концепции Vision-Robotics Bridge (VRB). / Кредит: robo-affordances.github.io

Используя огромное количество обучающих видеороликов в Интернете, роботы могут стать более универсальными и адаптируемыми в различных средах.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
Бизнес Новостной репортаж Технологии
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
3 мая 2024
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
Области применения: Новостной репортаж Технологии
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
3 мая 2024
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
Области применения: Новостной репортаж Технологии
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
3 мая 2024
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
Бизнес Новостной репортаж Технологии
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
3 мая 2024
CRYPTOMERIA LABS PTE. ООО