01 августа 2023

Is GPT-4 Собираетесь усовершенствовать робототехнику? Почему РТ-2 меняет все

Опубликовано: 01 августа 2023 г. в 3:58 Обновлено: 01 августа 2023 г. в 3:58

Отредактировано и проверено: 01 августа 2023 г., 3:58.

Коротко

Google DeepMind разработала приложения модели языка зрения для сквозное роботизированное управление, уделяя особое внимание их способности обобщать и передавать знания между областями.

Модель RT-2, предназначенная для генерации последовательностей, способных кодировать огромное количество информации, была протестирована в различных сценариях, включая незнакомые объекты, разный фон и разнообразную среду.

Модель RT-2 превосходит некоторых своих предшественников в адаптации к новым условиям, во многом благодаря своей экспансивной языковой модели.

Google DeepMind исследовал приложения модели языка зрения, сосредоточив внимание на их потенциале для сквозного управления роботами. Это исследование стремилось определить, способны ли эти модели к широкому обобщению. Кроме того, исследовалось, могут ли в этом контексте возникать определенные когнитивные функции, такие как рассуждение и планирование, которые часто связаны с экспансивными языковыми моделями.

Is GPT-4 Собираетесь усовершенствовать робототехнику? Почему РТ-2 меняет все — Кредит: Metaverse Post / Stable Diffusion

Фундаментальная предпосылка этого исследования неразрывно связана с характеристиками больших языковых моделей (LLM). Такой модели предназначены для создания любая последовательность, способная кодировать широкий спектр информации. Это включает в себя не только общий язык или программный код, такой как Python, но и специальные команды. которые могут управлять действиями роботов.

Чтобы представить это в перспективе, рассмотрите способность модели понимать и преобразовывать определенные последовательности строк в действенные роботизированные команды. Например, сгенерированная строка, такая как «1 128 91 241 5 101 127 217», может быть декодирована следующим образом:

Начальная цифра, единица, означает, что задача все еще выполняется и не завершена.
Последующая триада чисел, 128-91-241, обозначает относительное и нормализованное смещение по трем измерениям пространства.
Заключительный набор, 101-127-217, определяет угол поворота сегмента функциональной руки робота.

Такая конфигурация включает робота изменять свое состояние по шести степеням свободы. Проводя параллель, как языковые модели Усваивая общие идеи и концепции из обширных текстовых данных в Интернете, модель RT-2 извлекает знания из веб-информации для управления действиями роботов.

Потенциальные последствия этого значительны. Если модель подвергается воздействию тщательно подобранного набора траекторий, которые, по сути, указывают на то, что «для достижения определенного результата механизм захвата робота должен двигаться определенным образом», то само собой разумеется, что преобразователь может генерировать согласованные действия в соответствии с этот ввод.

Важнейшим оцениваемым аспектом была способность выполнять новые задачи, не охваченные во время обучения. Это можно проверить несколькими способами:

1) Незнакомые объекты: Может ли модель воспроизвести задачу, когда ее знакомят с объектами, на которых она не обучалась? Успех в этом аспекте зависит от преобразования изображения с камеры в вектор, который может интерпретировать языковая модель. Затем модель должна быть в состоянии распознать его значение, связать термин с его аналогом в реальном мире и впоследствии направлять роботизированную руку, чтобы она действовала соответствующим образом.

2) Различные фоны: Как модель реагирует, когда большая часть визуального потока состоит из новых элементов, потому что фон местоположения задачи был полностью изменен? Например, смена столов или даже изменение условий освещения.

3) Разнообразные среды: Продолжая предыдущий пункт, что если вся локация сама по себе другая?

Для людей эти сценарии кажутся простыми — естественно, если кто-то может выбросить банку в своей комнате, он сможет сделать это и на улице, верно? (Кстати, я наблюдал, как несколько человек в парках боролись с этой, казалось бы, простой задачей). Тем не менее, для машин это проблемы, которые еще предстоит решить.

Графические данные показывают, что модель RT-2 превосходит некоторых своих предшественников, когда дело доходит до адаптации к этим новым условиям. Это превосходство в значительной степени связано с использованием обширной языковой модели, обогащенной множеством текстов, которые она обработала на этапе обучения.

Одним из ограничений, отмеченных исследователями, является неспособность модели адаптироваться к совершенно новым навыкам. Например, он не понял бы, как поднимать предмет с левой или с правой стороны, если бы это не было частью его обучения. Напротив, языковые модели, такие как ChatGPT довольно легко преодолели это препятствие. Обрабатывая огромные объемы данных для множества задач, эти модели могут быстро расшифровывать и реагировать на новые запросы, даже если они никогда не сталкивались с ними раньше.

Традиционно роботы работали, используя комбинации сложных систем. В этих установках системы рассуждений более высокого уровня и базовые системы манипулирования часто взаимодействовали без эффективной коммуникации. похоже на игру «сломанный телефон». Представьте, что вы мысленно концептуализируете действие, а затем вам нужно передать его вашему телу для выполнения. Недавно представленная модель RT-2 оптимизирует этот процесс. Это позволяет одной языковой модели выполнять сложные рассуждения, а также отправлять прямые команды роботу. Это демонстрирует, что с минимальными обучающими данными робот может выполнять действия, которым он явно не научился.

Например, чтобы старые системы могли выбрасывать отходы, им требовалось специальное обучение по выявлению, сбору и утилизации мусора. Напротив, РТ-2 уже обладает фундаментальным пониманием отходов, может распознавать их без специальной подготовки и может утилизировать их даже без предварительного инструктажа по действиям. Рассмотрим тонкий вопрос: «Что представляют собой отходы?» Это сложная концепция для формализации. Пакет из-под чипсов или банановая кожура превращаются из предмета в отходы после потребления. Такие тонкости не нуждаются в подробном объяснении или отдельном обучении; RT-2 расшифровывает их, используя присущее ему понимание, и действует соответственно.

Вот почему это достижение имеет ключевое значение, и его будущие последствия:

Языковые модели, такие как RT-2, функционируют как всеобъемлющие когнитивные механизмы. Их способность обобщать и передавать знания между областями означает, что они адаптируются к различным приложениям.
Исследователи намеренно не использовали самые продвинутые модели для своего исследования, стремясь обеспечить, чтобы каждая модель реагировала в течение секунды (имеется в виду частота действий робота не менее 1 Герца). Гипотетически, интеграция такой модели, как GPT-4 и еще один улучшенная визуальная модель может дать еще более убедительные результаты.
Полных данных по-прежнему мало. Однако переход от текущего состояния к целостному набору данных, начиная от заводских производственных линий и заканчивая работой по дому, по прогнозам, займет от одного до двух лет. Это предварительная оценка, поэтому эксперты в этой области могут дать более точные данные. Этот приток данных неизбежно приведет к значительному прогрессу.
Хотя RT-2 был разработан с использованием определенной технологии, существует множество других методов. В будущем, вероятно, произойдет слияние этих методологий. расширение возможностей роботов. Один из перспективных подходов может включать в себя обучение роботов с использованием видеозаписей человеческой деятельности. Нет необходимости в эксклюзивных записях — такие платформы, как TikTok и YouTube, предлагают обширный репозиторий такого контента.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов