Is GPT-4 想要幫機器人增壓嗎？為什麼 RT-2 改變了一切

by 達米爾亞拉洛夫

發布日期：01年2023月3日上午58點01分更新日期：2023年3月58日上午XNUMX點XNUMX分

by 丹尼爾·米亞金

編輯和事實核查：01 年 2023 月 3 日上午 58:XNUMX

簡單來說

谷歌 DeepMind 開發了視覺語言模型應用程序端到端機器人控制，重點關注他們跨領域概括和轉移知識的能力。

RT-2模型旨在生成能夠編碼大量信息的序列，已經在各種場景下進行了測試，包括不熟悉的物體、不同的背景和不同的環境。

RT-2 模型在適應新條件方面優於其一些前身，這主要歸功於其擴展的語言模型。

谷歌 DeepMind 研究視覺語言模型應用，重點關注其端到端機器人控制的潛力。這項調查旨在確定這些模型是否能夠廣泛推廣。此外，它還調查了某些通常與擴展語言模型相關的認知功能（例如推理和計劃）是否可以在這種情況下出現。

Is GPT-4 想要幫機器人增壓嗎？為什麼 RT-2 改變了一切 — 信用： Metaverse Post / Stable Diffusion

這種探索背後的基本前提與大型語言模型（LLM）的特徵有著內在的聯繫。這樣的模型旨在生成任何能夠編碼大量信息的序列。這不僅包括像Python這樣的通用語言或編程代碼，還包括特定的命令可以指導機器人動作.

為了正確看待這一點，請考慮模型理解特定字符串序列並將其轉換為可操作的機器人命令的能力。作為說明，可以通過以下方式解碼生成的字符串，例如“1 128 91 241 5 101 127 217”：

第一位數字 XNUMX 表示任務仍在進行中且尚未完成。
隨後的三元組數字 128-91-241 表示空間三個維度上的相對且標準化的轉變。
最後一組，101-127-217，精確定位了機器人功能臂段的旋轉程度。

這樣的配置使機器人跨六個自由度修改其狀態。畫一個平行線，就像語言模型 RT-2 模型從互聯網上的大量文本數據中吸收一般思想和概念，從基於網絡的信息中提取知識來指導機器人動作。

其潛在影響是巨大的。如果一個模型暴露在一組精心設計的軌跡中，這些軌跡本質上表明“為了實現特定的結果，機器人的抓取機構需要以特定的方式移動”，那麼按理說，變壓器可以生成符合以下條件的連貫動作：這個輸入。

評估中的一個關鍵方面是能力執行培訓期間未涵蓋的新任務。這可以通過幾種不同的方式進行測試：

1) 不熟悉的物體：當模型遇到未經訓練的對象時，它能否複製任務？這方面的成功取決於將來自相機的視覺輸入轉換為語言模型可以解釋的向量。然後，該模型應該能夠辨別其含義，將術語與其現實世界中的對應術語聯繫起來，然後引導機械臂採取相應的行動。

2) 不同背景：當由於任務位置的背景已完全改變而導致大部分視覺提要包含新元素時，模型如何響應？例如，桌子的變化，甚至照明條件的變化。

3) 多樣化的環境：延伸上一點，如果整個位置本身不一樣怎麼辦？

對於人類來說，這些場景似乎很簡單——當然，如果有人可以在房間里扔掉一個罐子，他們也應該可以在戶外這樣做，對嗎？（順便說一句，我觀察到公園裡的一些人正在努力完成這項看似簡單的任務）。然而，對於機械來說，這些都是有待解決的挑戰。

圖形數據顯示，RT-2 模型在適應這些新條件方面優於其一些前代模型。這種優勢很大程度上源於利用了廣泛的語言模型，該模型在訓練階段處理的大量文本使其更加豐富。

研究人員強調的一個限制是該模型無法適應全新的技能。例如，如果它沒有接受過訓練，它就無法理解從左側或右側舉起物體。相比之下，語言模型如 ChatGPT 毫不費力地克服了這個障礙。通過處理無數任務中的大量數據，這些模型可以快速破譯新的請求並對其採取行動，即使它們以前從未遇到過這些請求。

傳統上，機器人使用複雜系統的組合進行操作。在這些設置中，高級推理系統和基礎操縱系統經常在沒有有效通信的情況下進行交互，類似於玩遊戲的“手機壞了”。想像一下在精神上概念化一個動作，然後需要將其傳遞給你的身體來執行。新推出的 RT-2 模型簡化了這一過程。它使單一語言模型能夠進行複雜的推理，同時向機器人發送直接命令。它表明，只需最少的訓練數據，機器人就可以執行它尚未明確學習的活動。

例如，為了使舊系統能夠丟棄廢物，他們需要進行專門的培訓來識別、撿起和處置垃圾。相比之下，RT-2 已經對廢物有了基本的了解，無需有針對性的訓練即可識別廢物，甚至無需事先指導即可處理廢物。考慮一下這個微妙的問題：“什麼構成浪費？” 這是一個具有挑戰性的概念，很難形式化。薯片袋或香蕉皮在消費後從物品轉變為廢物。這些錯綜複雜的事情不需要明確的解釋或單獨的培訓； RT-2 使用其固有的理解來破譯它們並採取相應的行動。

以下是這一進步至關重要的原因及其未來影響：

語言模型（如 RT-2）充當包羅萬象的認知引擎。它們跨領域概括和轉移知識的能力意味著它們能夠適應不同的應用程序。
研究人員故意沒有採用最先進的模型進行研究，目的是確保每個模型在一秒鐘內做出反應（意味著機器人的動作頻率至少為 1 赫茲）。假設，整合這樣的模型 GPT-4 和優越的視覺模型可能會產生更引人注目的結果。
綜合數據仍然稀疏。然而，從當前狀態過渡到從工廠生產線到家務勞動的整體數據集，預計需要大約一到兩年的時間。這是一個初步估計，因此該領域的專家可能會提供更精確的結果。數據的湧入將不可避免地推動重大進步。
雖然 RT-2 是使用特定技術開發的，但還存在許多其他方法。未來可能會融合這些方法，進一步增強機器人能力。一種前瞻性的方法可能涉及使用人類活動視頻來訓練機器人。無需獨家錄製——TikTok 和 YouTube 等平台提供了大量此類內容。

閱讀有關人工智能的更多信息：

標籤：

免責聲明

在與線信託專案指南，請注意，本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。重要的是，僅投資您可以承受損失的金額，並在有任何疑問時尋求獨立的財務建議。如需了解更多信息，我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告，但市場狀況如有變更，恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post，涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。他的文章每月吸引超過一百萬用戶的大量讀者。他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。達米爾獲得了物理學學士學位，他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。