Is GPT-4 ロボット工学を強化しようとしていますか? RT-2 がすべてを変える理由
簡単に言えば
Google DeepMind は、次のようなビジョン言語モデル アプリケーションを開発しました。 エンドツーエンドのロボット制御、領域を超えて知識を一般化して伝達する能力に焦点を当てています。
RT-2 モデルは、膨大な量の情報をエンコードできるシーケンスを生成するように設計されており、見慣れないオブジェクト、異なる背景、さまざまな環境など、さまざまなシナリオでテストされています。
RT-2 モデルは、主にその拡張的な言語モデルにより、新しい条件への適応において一部の以前のモデルよりも優れています。
Google DeepMind は視覚言語モデルのアプリケーションを調査しました、エンドツーエンドのロボット制御の可能性に焦点を当てています。 この調査では、これらのモデルが広範な一般化が可能かどうかを判断することを目的としました。 さらに、拡張的な言語モデルに関連付けられることが多い推論や計画などの特定の認知機能が、この文脈で出現する可能性があるかどうかを調査しました。
この探索の背後にある基本的な前提は、本質的に大規模言語モデル (LLM) の特性に関連しています。 そのような モデルは生成するように設計されています 膨大な範囲の情報をエンコードできる任意のシーケンス。 これには、共通言語や Python などのプログラミング コードだけでなく、特定のコマンドも含まれます。 ロボットの動作をガイドできる.
これを大局的に理解するには、特定の文字列シーケンスを理解し、実行可能なロボット コマンドに変換するモデルの能力を考慮してください。 たとえば、「1 128 91 241 5 101 127 217」などの生成された文字列は、次の方法でデコードできます。
- 最初の数字 XNUMX は、タスクがまだ進行中であり、完了に達していないことを示します。
- 続く 128 つの数字 91-241-XNUMX は、空間の XNUMX 次元にわたる相対的で正規化されたシフトを示します。
- 最終的なセット 101-127-217 は、ロボットの機能的なアーム セグメントの回転角度を正確に示します。
このような構成 ロボットを有効にする XNUMX つの自由度にわたってその状態を変更します。 同様に平行線を描きます 言語モデル RT-2 モデルは、インターネット上の膨大なテキスト データから一般的なアイデアや概念を吸収し、Web ベースの情報から知識を抽出してロボットの動作をガイドします。
これがもたらす潜在的な影響は重大です。 モデルが本質的に「特定の結果を達成するには、ロボットのグリップ機構が特定の方法で動く必要がある」ことを示す精選された一連の軌道にさらされた場合、トランスフォーマーが次の条件に沿った一貫した動作を生成できるのは当然です。この入力。
評価中の重要な側面は、 トレーニング中にカバーされなかった新しいタスクを実行する。 これは、いくつかの異なる方法でテストできます。
1) 見慣れない物体: モデルは、トレーニングされていないオブジェクトに導入されたときにタスクを複製できますか? この側面で成功するかどうかは、カメラからのビジュアル フィードを言語モデルが解釈できるベクトルに変換するかどうかにかかっています。 その後、モデルはその意味を認識し、用語を現実世界の対応する用語と関連付け、それに応じてロボット アームが動作するように誘導できる必要があります。
2) さまざまな背景: タスクの場所の背景が完全に変更されたため、ビジュアル フィードの大部分が新しい要素で構成されている場合、モデルはどのように反応しますか? たとえば、テーブルの変更や照明条件の変更などです。
3) 多様な環境: 前の点を拡張して、場所自体全体が異なる場合はどうなるでしょうか?
人間にとって、これらのシナリオは簡単に思えます。当然、部屋で缶を捨てることができる人は、屋外でも同様に捨てられるはずですよね。 (余談ですが、私は公園でこの一見単純な作業に苦労している数人の人を観察しました)。 しかし、機械にとって、これらはまだ対処すべき課題です。
グラフィックデータは、これらの新しい条件への適応に関して、RT-2 モデルが以前のモデルの一部よりも優れていることを示しています。 この優位性は主に、トレーニング段階で処理された大量のテキストによって強化された、拡張的な言語モデルを活用することに由来しています。
研究者らによって強調された制約の XNUMX つは、モデルがまったく新しいスキルに適応できないことです。 たとえば、物体を左側または右側から持ち上げるということは、これがトレーニングの一部でなければ理解できません。 対照的に、次のような言語モデルは、 ChatGPT このハードルをかなり楽に乗り越えた。 これらのモデルは、無数のタスクにわたって膨大な量のデータを処理することにより、これまでに遭遇したことがない新しいリクエストであっても、迅速に解読し、それに応じて行動することができます。
従来、ロボットは複雑なシステムを組み合わせて動作していました。 これらの設定では、高レベルの推論システムと基本的な操作システムが効率的な通信を行わずに相互作用することがよくありました。 ゲームをするのと同じような 「壊れた電話」のこと。 頭の中でアクションを概念化し、実行のためにそれを体に伝える必要があることを想像してください。 新しく導入された RT-2 モデルは、このプロセスを合理化します。 これにより、単一言語モデルが高度な推論を実行できるようになり、同時にロボットに直接コマンドを送信できるようになります。 これは、最小限のトレーニング データで、ロボットが明示的に学習していないアクティビティを実行できることを示しています。
たとえば、古いシステムで廃棄物を廃棄できるようにするには、ゴミを特定し、拾い、処分するための特別なトレーニングが必要でした。 対照的に、RT-2 はすでに廃棄物の基本的な理解を備えており、対象を絞った訓練なしでも廃棄物を認識でき、事前の行動指示がなくても廃棄できます。 「廃棄物とは何ですか?」という微妙な質問を考えてみましょう。 これは形式化するのが難しい概念です。 ポテトチップスの袋やバナナの皮は、消費後はアイテムから廃棄物に変わります。 このような複雑さについては、明示的な説明や個別のトレーニングは必要ありません。 RT-2 は、固有の理解を使用してそれらを解読し、それに応じて動作します。
この進歩が極めて重要である理由と、その将来の影響は次のとおりです。
- RT-2 のような言語モデルは、包括的な認知エンジンとして機能します。 知識を一般化し、領域を越えて伝達する能力は、さまざまなアプリケーションに適応できることを意味します。
- 研究者らは、各モデルが 1 秒以内に応答することを目指して(ロボットの動作周波数が少なくとも XNUMX ヘルツであることを意味し)、研究には意図的に最先端のモデルを使用しませんでした。 仮説として、次のようなモデルを統合すると、 GPT-4 フォルダーとその下に 優れたビジュアルモデル さらに説得力のある結果が得られる可能性があります。
- 包括的なデータはまだ少ない。 ただし、現状から工場の生産ラインから家事に至るまでの包括的なデータセットに移行するには、約 XNUMX ~ XNUMX 年かかると予測されています。 これは暫定的な推定値であるため、この分野の専門家がより正確な値を提供する可能性があります。 このデータの流入により、必然的に大きな進歩がもたらされることになります。
- RT-2 は特定の技術を使用して開発されましたが、他にも多数の方法が存在します。 将来的には、これらの方法論が融合される可能性があります。 ロボットの能力を強化する。 将来性のあるアプローチの XNUMX つは、人間の活動のビデオを使用してロボットを訓練することを含む可能性があります。 独占的に録画する必要はありません。TikTok や YouTube などのプラットフォームは、そのようなコンテンツの膨大なリポジトリを提供します。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。