Meta AI розробляє алгоритм, який дозволяє роботам вивчати завдання з відео YouTube
Коротко
Дослідники розробили візуальну модель доступності, використовуючи інтернет-відео людської поведінки, щоб навчити роботів виконувати складні завдання.
Цей підхід усуває розрив між статичними наборами даних і додатками реальних роботів.
Дослідники використовують великомасштабні набори даних людського відео, такі як Ego4D і Epic Kitchens, щоб витягти доступні можливості, інтегруючи методи комп’ютерного зору з роботизованими маніпуляціями.
Концепція Vision-Robotics Bridge (VRB) демонструє потенціал цього підходу, дозволяючи роботам навчатися на відео людей і набувати навичок, необхідних для виконання складних завдань.
Meta AI представила новий алгоритм, який дозволяє роботам вивчати та відтворювати дії людини, переглядаючи відео на YouTube. У нещодавній статті під назвою «Переваги Human Videos як універсальне представлення робототехніки», автори досліджують, як можна використовувати відео взаємодії людей, щоб навчити роботів виконувати складні завдання.
Це дослідження має на меті подолати розрив між статичними наборами даних і реальними додатками роботів. Хоча попередні моделі продемонстрували успіх на статичних наборах даних, застосування цих моделей безпосередньо до роботів залишалося проблемою. Дослідники пропонують навчання моделі візуальної доступності за допомогою інтернет-відео людської поведінки, яке може бути рішенням. Ця модель оцінює, де і як людина може взаємодіяти в сцені, надаючи цінну інформацію для роботів.
Концепція «дозволень» є центральною для цього підходу. Дозволи стосуються потенційних дій або взаємодій, які пропонує об’єкт або середовище. Розуміючи можливості за допомогою людських відео, робот отримує універсальне уявлення, що дозволяє йому виконувати різні складні завдання. Дослідники інтегрували свою модель доступності з чотирма різними парадигмами навчання роботів: офлайн-імітація навчання, дослідження, цілеспрямоване навчання та параметризація дій для навчання.
Щоб витягти доступні можливості, дослідники використовують великомасштабні набори даних людського відео, наприклад Ego4D та Епічні кухні. Вони використовують готові детектори взаємодії рук і предметів, щоб ідентифікувати область контакту та відстежувати траєкторію зап’ястя після контакту. Однак виникає важлива проблема, коли людина все ще присутня на сцені, що спричиняє зміщення розподілу. Щоб вирішити цю проблему, дослідники використовують доступну інформацію камери, щоб спроектувати точки контакту та постконтактну траєкторію на людський агностичний кадр, який слугує вхідними даними для їхньої моделі.
Раніше роботи були здатні імітувати дії, але їхні можливості обмежувалися копіюванням певного середовища. Завдяки останньому алгоритму дослідники досягли значного прогресу в «узагальненні» дій роботів. Тепер роботи можуть застосовувати отримані знання в нових і незнайомих середовищах. Це досягнення узгоджується з баченням досягнення загального штучного інтелекту (AGI), як відстоює дослідник ШІ Ян ЛеКун.
Meta AI прагне розвивати сферу комп’ютерного зору та планує поділитися кодом і набором даних свого проекту. Це дозволить іншим дослідникам і розробникам продовжувати досліджувати та розвивати цю технологію. З розширеним доступом до коду та набору даних розробка самонавчальних роботів, здатних отримувати нові навички від Відео YouTube буде продовжувати прогресувати.
Використовуючи величезну кількість онлайн-навчальних відео, роботи можуть стати більш універсальними та адаптованими в різних середовищах.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статті
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.