Серпень 01, 2023

Is GPT-4 Збираєтеся Supercharge Robotics? Чому RT-2 змінює все

Опубліковано: 01 серпня 2023 о 3:58 Оновлено: 01 серпня 2023 о 3:58

Відредаговано та перевірено: 01 серпня 2023 р. о 3:58

Коротко

Google DeepMind розробив програми для моделювання мови бачення наскрізне роботизоване управління, зосереджуючись на їхній здатності узагальнювати та передавати знання між областями.

Модель RT-2, розроблена для генерування послідовностей, здатних кодувати величезні обсяги інформації, була протестована в різних сценаріях, включаючи незнайомі об’єкти, різний фон і різноманітне середовище.

Модель RT-2 перевершує деяких своїх попередників у пристосуванні до нових умов, головним чином завдяки своїй розширеній мовній моделі.

Google DeepMind досліджував додатки моделі візуальної мови, зосереджуючись на їхньому потенціалі наскрізного роботизованого керування. Це дослідження намагалося визначити, чи здатні ці моделі до широкого узагальнення. Крім того, було досліджено, чи можуть певні когнітивні функції, такі як міркування та планування, які часто асоціюються з експансивними моделями мови, з’явитися в цьому контексті.

Is GPT-4 Збираєтеся Supercharge Robotics? Чому RT-2 змінює все — Кредит: Metaverse Post / Stable Diffusion

Основна передумова цього дослідження нерозривно пов’язана з характеристиками великих мовних моделей (LLM). Такий моделі призначені для створення будь-яка послідовність, здатна кодувати широкий діапазон інформації. Це стосується не лише звичайної мови або коду програмування, як-от Python, а й конкретних команд які можуть керувати роботами.

Щоб побачити це в перспективі, розглянемо здатність моделі розуміти та перекладати конкретні послідовності рядків у діючі роботизовані команди. Як приклад, згенерований рядок, наприклад «1 128 91 241 5 101 127 217», можна декодувати таким чином:

Початкова цифра, одиниця, означає, що завдання все ще триває і не досягнуто завершення.
Наступна тріада чисел, 128-91-241, позначає відносний і нормалізований зсув у трьох вимірах простору.
Заключний набір, 101-127-217, точно визначає ступінь повороту функціонального сегмента руки робота.

Така конфігурація дозволяє роботу змінювати свій стан через шість ступенів свободи. Провівши паралель, так само мовні моделі засвоювати загальні ідеї та концепції з великої кількості текстових даних в Інтернеті, модель RT-2 витягує знання з веб-інформації для керування роботами.

Потенційні наслідки цього значні. Якщо модель піддається керованому набору траєкторій, які, по суті, вказують на те, що «для досягнення конкретного результату механізм захоплення робота повинен рухатися певним чином», тоді цілком зрозуміло, що трансформатор може генерувати узгоджені дії відповідно до цей вхід.

Вирішальним аспектом, який оцінювався, була здатність до виконувати нові завдання, які не розглядалися під час навчання. Це можна перевірити кількома різними способами:

1) Незнайомі предмети: Чи може модель відтворити завдання, якщо її представити об’єктам, на яких вона не навчалася? Успіх у цьому аспекті залежить від перетворення візуального каналу з камери у вектор, який може інтерпретувати мовна модель. Тоді модель повинна мати можливість розпізнавати його значення, пов’язувати термін із його аналогом у реальному світі, а потім керувати рукою робота діяти відповідно.

2) Різні фони: Як реагує модель, коли більшість візуального каналу складається з нових елементів, оскільки фон розташування завдання було повністю змінено? Наприклад, зміна столів або навіть зміна умов освітлення.

3) Різноманітне середовище: Розширюючи попередній пункт, що, якщо сама локація буде іншою?

Для людей ці сценарії здаються простими – звичайно, якщо хтось може викинути банку у своїй кімнаті, він повинен мати можливість зробити це й на вулиці, чи не так? (На замітку, я спостерігав кількох людей у парках, які борються з цим, здавалося б, простим завданням). Однак для техніки це проблеми, які ще потрібно вирішити.

Графічні дані показують, що модель RT-2 перевершує деяких своїх попередників, коли мова йде про адаптацію до цих нових умов. Ця перевага значною мірою пов’язана з використанням розширеної мовної моделі, збагаченої великою кількістю текстів, які вона опрацьовувала під час фази навчання.

Дослідники підкреслили одне обмеження — нездатність моделі адаптуватися до абсолютно нових навичок. Наприклад, він не зрозуміє підняття предмета з лівого чи правого боку, якщо це не було частиною його навчання. Навпаки, мовні моделі, як ChatGPT подолали цю перешкоду досить легко. Обробляючи величезні обсяги даних для безлічі завдань, ці моделі можуть швидко розшифровувати нові запити та реагувати на них, навіть якщо вони ніколи раніше з ними не стикалися.

Традиційно роботи працювали, використовуючи комбінації складних систем. У цих установках системи міркування вищого рівня та базові системи маніпулювання часто взаємодіяли без ефективної комунікації, схоже на гру про «зіпсований телефон». Уявіть, що подумки сформулюйте дію, а потім вам потрібно передати її своєму тілу для виконання. Нещодавно представлена модель RT-2 спрощує цей процес. Це дає змогу єдиній мовній моделі виконувати складні міркування, а також надсилати прямі команди роботу. Це демонструє, що з мінімальними навчальними даними робот може виконувати дії, яким він явно не навчився.

Наприклад, щоб старі системи могли викидати сміття, вони потребували спеціального навчання ідентифікації, збору та утилізації сміття. Навпаки, RT-2 вже має фундаментальне розуміння відходів, може розпізнавати їх без цілеспрямованого навчання та може утилізувати навіть без попереднього інструктажу щодо дій. Розглянемо нюансне запитання: «Що є відходами?» Формалізувати цю концепцію складно. Пакетик для чіпсів або бананова шкірка перетворюються з речей на відходи після споживання. Такі тонкощі не потребують чіткого пояснення чи окремого навчання; RT-2 розшифровує їх за допомогою свого внутрішнього розуміння та діє відповідно.

Ось чому цей прогрес є ключовим і його майбутні наслідки:

Мовні моделі, такі як RT-2, функціонують як всеохоплюючі когнітивні механізми. Їхня здатність узагальнювати та передавати знання між областями означає, що вони адаптуються до різноманітних програм.
Дослідники навмисно не використовували найдосконаліші моделі для свого дослідження, прагнучи гарантувати, що кожна модель реагує протягом секунди (що означає частоту дій робота щонайменше 1 Герц). Гіпотетично, інтеграція моделі як GPT-4 і чудова візуальна модель може дати навіть більш переконливі результати.
Вичерпних даних все ще мало. Проте перехід від поточного стану до цілісного набору даних, починаючи від заводських виробничих ліній і закінчуючи домашніми справами, за прогнозами, займе приблизно один-два роки. Це попередня оцінка, тому експерти в цій галузі можуть запропонувати більшу точність. Цей приплив даних неминуче призведе до значного прогресу.
Незважаючи на те, що RT-2 було розроблено з використанням спеціальної техніки, існує багато інших методів. Майбутнє, ймовірно, передбачає злиття цих методологій розширення роботизованих можливостей. Одним з перспективних підходів може бути навчання роботів за допомогою відеозаписів людської діяльності. Немає потреби в ексклюзивних записах – такі платформи, як TikTok і YouTube, пропонують величезне сховище такого вмісту.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов