2023 년 8 월 01 일

Is GPT-4 로봇공학을 강화하려고 하시나요? RT-2가 모든 것을 변화시키는 이유

by 다미르 얄랄로프

게시: 01년 2023월 3일 오전 58시 01분 업데이트: 2023년 3월 58일 오전 XNUMX시 XNUMX분

by 다닐 먀킨

수정 및 사실 확인 날짜: 01년 2023월 3일 오전 58시 XNUMX분

요컨대

Google DeepMind는 다음을 위한 비전 언어 모델 애플리케이션을 개발했습니다. 종단 간 로봇 제어, 도메인 전반에 걸쳐 지식을 일반화하고 전달하는 능력에 중점을 둡니다.

방대한 양의 정보를 인코딩할 수 있는 시퀀스를 생성하도록 설계된 RT-2 모델은 익숙하지 않은 물체, 다양한 배경 및 다양한 환경을 포함한 다양한 시나리오에서 테스트되었습니다.

RT-2 모델은 주로 광범위한 언어 모델로 인해 새로운 조건에 적응하는 데 있어 일부 이전 모델을 능가합니다.

Google DeepMind는 시각 언어 모델 애플리케이션을 조사했습니다., 종단 간 로봇 제어의 잠재력에 중점을 둡니다. 이 조사는 이러한 모델이 광범위한 일반화를 수행할 수 있는지 여부를 확인하고자 했습니다. 또한 확장 언어 모델과 자주 연관되는 추론 및 계획과 같은 특정 인지 기능이 이러한 맥락에서 나타날 수 있는지 조사했습니다.

Is GPT-4 로봇공학을 강화하려고 하시나요? RT-2가 모든 것을 변화시키는 이유 — 신용 : Metaverse Post / Stable Diffusion

이 탐색의 기본 전제는 본질적으로 대규모 언어 모델(LLM)의 특성과 연결되어 있습니다. 그런 생성하도록 설계된 모델 광범위한 정보를 인코딩할 수 있는 모든 시퀀스. 여기에는 Python과 같은 공통 언어 또는 프로그래밍 코드뿐만 아니라 특정 명령도 포함됩니다. 로봇 행동을 안내할 수 있는.

이를 이해하려면 특정 문자열 시퀀스를 이해하고 실행 가능한 로봇 명령으로 변환하는 모델의 기능을 고려하십시오. 예를 들어 "1 128 91 241 5 101 127 217"과 같이 생성된 문자열은 다음과 같은 방식으로 디코딩할 수 있습니다.

초기 숫자 XNUMX은 작업이 아직 진행 중이며 완료되지 않았음을 나타냅니다.
128-91-241이라는 후속 숫자 XNUMX개는 공간의 XNUMX차원에 걸쳐 상대적이고 정규화된 이동을 지정합니다.
최종 세트인 101-127-217은 로봇의 기능적 팔 부분의 회전 정도를 정확히 나타냅니다.

이와 같은 구성 로봇을 활성화 XNUMX개의 자유도에 걸쳐 상태를 수정합니다. 평행선을 그리듯이 언어 모델 인터넷의 방대한 텍스트 데이터에서 일반적인 아이디어와 개념을 동화하고 RT-2 모델은 웹 기반 정보에서 지식을 추출하여 로봇 동작을 안내합니다.

이것의 잠재적 영향은 중요합니다. 모델이 "특정 결과를 달성하려면 로봇의 파지 메커니즘이 특정 방식으로 움직여야 한다"는 것을 본질적으로 나타내는 선별된 궤적 세트에 노출되면 변압기가 이 입력.

평가에서 중요한 측면은 다음과 같은 능력이었습니다. 교육 중에 다루지 않은 새로운 작업 실행. 이는 다음과 같은 몇 가지 고유한 방법으로 테스트할 수 있습니다.

1) 낯선 물체: 모델이 훈련되지 않은 개체에 도입되었을 때 작업을 복제할 수 있습니까? 이 측면에서의 성공은 카메라의 시각적 피드를 언어 모델이 해석할 수 있는 벡터로 변환하는 데 달려 있습니다. 그런 다음 모델은 그 의미를 식별하고 용어를 실제 대응 항목과 연결한 다음 로봇 팔이 그에 따라 행동하도록 안내할 수 있어야 합니다.

2) 다른 배경: 작업 위치의 배경이 완전히 변경되어 시각적 피드의 대부분이 새로운 요소로 구성될 때 모델은 어떻게 반응합니까? 예를 들어, 테이블의 변경 또는 조명 조건의 변화입니다.

3) 다양한 환경: 이전 지점을 확장하여 전체 위치 자체가 다르다면?

인간에게는 이러한 시나리오가 간단해 보입니다. 당연히 누군가가 자신의 방에서 캔을 버릴 수 있다면 야외에서도 그렇게 할 수 있어야 합니다. (참고로 저는 공원에서 이 간단해 보이는 작업에 어려움을 겪는 몇몇 개인을 관찰했습니다). 그러나 기계의 경우 이러한 문제는 해결해야 할 과제로 남아 있습니다.

그래픽 데이터에 따르면 RT-2 모델은 이러한 새로운 조건에 적응할 때 일부 이전 모델보다 성능이 뛰어납니다. 이러한 우월성은 주로 훈련 단계에서 처리한 과다한 텍스트로 보강된 광범위한 언어 모델을 활용하는 데서 비롯됩니다.

연구자들이 강조한 한 가지 제약은 모델이 완전히 새로운 기술에 적응할 수 없다는 것입니다. 예를 들어, 이것이 훈련의 일부가 아닌 경우 왼쪽이나 오른쪽에서 물체를 들어 올리는 것을 이해하지 못할 것입니다. 대조적으로, 다음과 같은 언어 모델 ChatGPT 이 장애물을 쉽게 통과했습니다.. 무수한 작업에서 방대한 양의 데이터를 처리함으로써 이러한 모델은 이전에 한 번도 만난 적이 없는 새로운 요청을 신속하게 해독하고 이에 따라 조치를 취할 수 있습니다.

전통적으로 로봇은 복잡한 시스템의 조합을 사용하여 작동했습니다. 이러한 설정에서 더 높은 수준의 추론 시스템과 기본 조작 시스템은 종종 효율적인 의사 소통 없이 상호 작용했습니다. 게임을 하는 것과 비슷하다 "깨진 전화". 행동을 정신적으로 개념화한 다음 실행을 위해 몸에 전달해야 한다고 상상해 보십시오. 새로 도입된 RT-2 모델은 이 프로세스를 간소화합니다. 단일 언어 모델이 정교한 추론을 수행하는 동시에 로봇에 직접 명령을 전달할 수 있습니다. 최소한의 교육 데이터로 로봇이 명시적으로 학습하지 않은 활동을 수행할 수 있음을 보여줍니다.

예를 들어, 오래된 시스템에서 폐기물을 폐기할 수 있도록 하려면 폐기물을 식별, 수거 및 처리하기 위한 특정 교육이 필요했습니다. 대조적으로 RT-2는 이미 폐기물에 대한 근본적인 이해를 가지고 있고, 목표 훈련 없이도 인식할 수 있으며, 행동에 대한 사전 지시 없이도 폐기할 수 있습니다. "무엇이 폐기물을 구성하는가?"라는 미묘한 질문을 고려하십시오. 이것은 공식화하기 어려운 개념입니다. 칩 백이나 바나나 껍질은 소비 후 품목에서 폐기물로 전환됩니다. 이러한 복잡함은 명시적인 설명이나 별도의 교육이 필요하지 않습니다. RT-2는 고유한 이해를 사용하여 이를 해독하고 그에 따라 행동합니다.

이 발전이 중추적인 이유와 향후 영향은 다음과 같습니다.

RT-2와 같은 언어 모델은 모든 것을 포괄하는 인지 엔진으로 작동합니다. 도메인 전반에 걸쳐 지식을 일반화하고 이전하는 능력은 다양한 응용 프로그램에 적응할 수 있음을 의미합니다.
연구원들은 각 모델이 1초 이내에 반응하도록 하는 것을 목표로 의도적으로 연구에 가장 진보된 모델을 사용하지 않았습니다(최소 XNUMXHz의 로봇 동작 주파수를 의미). 가정적으로 다음과 같은 모델을 통합하면 GPT-4 및 우수한 비주얼 모델 더욱 매력적인 결과를 얻을 수 있습니다.
종합적인 데이터는 여전히 희박합니다. 그러나 현재 상태에서 공장 생산 라인에서 가사일에 이르기까지 전체적인 데이터 세트로 전환하는 데는 약 XNUMX~XNUMX년이 소요될 것으로 예상됩니다. 이것은 잠정적인 추정치이므로 해당 분야의 전문가가 더 정확한 정보를 제공할 수 있습니다. 이러한 데이터 유입은 필연적으로 상당한 발전을 이끌 것입니다.
RT-2는 특정 기술을 사용하여 개발되었지만 수많은 다른 방법이 존재합니다. 미래에는 이러한 방법론이 융합될 가능성이 높습니다. 로봇 기능 향상. 한 가지 예상되는 접근 방식은 인간 활동 비디오를 사용하여 로봇을 훈련시키는 것과 관련될 수 있습니다. 독점 녹화가 필요하지 않습니다. TikTok 및 YouTube와 같은 플랫폼은 이러한 콘텐츠의 방대한 저장소를 제공합니다.

AI에 대해 자세히 알아보기:

태그 :

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.

더 많은 기사

다미르 얄랄로프