Analyse Technologie
01 août 2023

Is GPT-4 Sur le point de booster la robotique ? Pourquoi RT-2 change tout

En bref

Google DeepMind a développé des applications modèles de langage visuel pour contrôle robotique de bout en bout, en se concentrant sur leur capacité à généraliser et à transférer les connaissances entre les domaines.

Le modèle RT-2, conçu pour générer des séquences capables d'encoder de grandes quantités d'informations, a été testé dans divers scénarios, y compris des objets inconnus, des arrière-plans différents et des environnements variés.

Le modèle RT-2 surpasse certains de ses prédécesseurs en s'adaptant aux nouvelles conditions, en grande partie grâce à son modèle de langage expansif.

Google DeepMind a étudié les applications de modèles de langage visuel, en se concentrant sur leur potentiel de contrôle robotique de bout en bout. Cette enquête visait à déterminer si ces modèles étaient susceptibles d'une large généralisation. De plus, il a cherché à savoir si certaines fonctions cognitives, telles que le raisonnement et la planification, qui sont fréquemment associées à des modèles de langage expansif, pouvaient émerger dans ce contexte.

Is GPT-4 Sur le point de booster la robotique ? Pourquoi RT-2 change tout
Crédit: Metaverse Post / Stable Diffusion

La prémisse fondamentale de cette exploration est intrinsèquement liée aux caractéristiques des grands modèles de langage (LLM). Tel les modèles sont conçus pour générer toute séquence capable de coder une vaste gamme d'informations. Cela inclut non seulement le langage commun ou le code de programmation comme Python, mais également des commandes spécifiques qui peut guider les actions robotiques.

Pour mettre cela en perspective, tenez compte de la capacité du modèle à comprendre et à traduire des séquences de chaînes spécifiques en commandes robotiques exploitables. A titre d'illustration, une chaîne générée telle que « 1 128 91 241 5 101 127 217 » peut être décodée de la manière suivante :

  • Le premier chiffre, un, signifie que la tâche est toujours en cours et qu'elle n'est pas terminée.
  • La triade de nombres suivante, 128-91-241, désigne un déplacement relatif et normalisé à travers les trois dimensions de l'espace.
  • L'ensemble final, 101-127-217, indique le degré de rotation du segment de bras fonctionnel du robot.

Une telle configuration permet au robot modifier son état sur six degrés de liberté. Faire un parallèle, tout comme modèles de langage assimiler des idées et des concepts généraux à partir de vastes données textuelles sur Internet, le modèle RT-2 extrait des connaissances à partir d'informations basées sur le Web pour guider les actions robotiques.

Les implications potentielles de cela sont importantes. Si un modèle est exposé à un ensemble organisé de trajectoires qui indiquent essentiellement, "pour obtenir un résultat particulier, le mécanisme de préhension du robot doit se déplacer d'une manière spécifique", alors il va de soi que le transformateur pourrait générer des actions cohérentes en ligne avec cette entrée.

Un aspect crucial de l'évaluation était la capacité à exécuter de nouvelles tâches non couvertes pendant la formation. Cela peut être testé de plusieurs manières distinctes :

1) Objets inconnus : Le modèle peut-il reproduire une tâche lorsqu'il est introduit dans des objets sur lesquels il n'a pas été entraîné ? Le succès dans cet aspect dépend de la conversion du flux visuel de la caméra en un vecteur, que le modèle de langage peut interpréter. Le modèle devrait alors être capable de discerner sa signification, de lier un terme à son homologue du monde réel, puis de guider le bras robotique pour qu'il agisse en conséquence.

2) Différents arriere plan : Comment le modèle réagit-il lorsque la majorité du flux visuel est constitué de nouveaux éléments parce que l'arrière-plan de l'emplacement de la tâche a été entièrement modifié ? Par exemple, un changement de tables ou même un changement des conditions d'éclairage.

3) Environnements variés : En prolongeant le point précédent, que se passe-t-il si l'ensemble de l'emplacement lui-même est différent ?

Pour les humains, ces scénarios semblent simples - naturellement, si quelqu'un peut jeter une canette dans sa chambre, il devrait également pouvoir le faire à l'extérieur, n'est-ce pas ? (En passant, j'ai observé quelques personnes dans les parcs aux prises avec cette tâche apparemment simple). Pourtant, pour les machines, ce sont des défis qui restent à relever.

Les données graphiques révèlent que le modèle RT-2 surpasse certains de ses prédécesseurs en matière d'adaptation à ces nouvelles conditions. Cette supériorité découle en grande partie de l'exploitation d'un modèle de langage expansif, enrichi par la pléthore de textes qu'il a traités au cours de sa phase d'apprentissage.

Une contrainte mise en évidence par les chercheurs est l'incapacité du modèle à s'adapter à des compétences entièrement nouvelles. Par exemple, il ne comprendrait pas le fait de soulever un objet de son côté gauche ou droit si cela ne faisait pas partie de son entraînement. En revanche, les modèles de langage comme ChatGPT ont surmonté cet obstacle plutôt sans effort. En traitant de grandes quantités de données dans une myriade de tâches, ces modèles peuvent rapidement déchiffrer et agir sur de nouvelles demandes, même s'ils ne les ont jamais rencontrées auparavant.

Traditionnellement, les robots ont fonctionné en utilisant des combinaisons de systèmes complexes. Dans ces configurations, les systèmes de raisonnement de niveau supérieur et les systèmes de manipulation fondamentaux interagissaient souvent sans communication efficace, semblable à jouer à un jeu de "téléphone cassé". Imaginez que vous conceptualisez mentalement une action, puis que vous deviez la transmettre à votre corps pour l'exécuter. Le nouveau modèle RT-2 rationalise ce processus. Il permet à un modèle de langage unique d'entreprendre un raisonnement sophistiqué tout en envoyant des commandes directes au robot. Il démontre qu'avec un minimum de données d'entraînement, le robot peut effectuer des activités qu'il n'a pas explicitement apprises.

Par exemple, pour permettre aux systèmes plus anciens d'éliminer les déchets, ils avaient besoin d'une formation spécifique pour identifier, ramasser et éliminer les déchets. En revanche, le RT-2 possède déjà une compréhension fondamentale des déchets, peut les reconnaître sans formation ciblée et peut les éliminer même sans instruction préalable sur l'action. Considérez la question nuancée, "qu'est-ce qui constitue un déchet?" C'est un concept difficile à formaliser. Un sac de chips ou une peau de banane passe d'un article à un déchet post-consommation. De telles complexités n'ont pas besoin d'explication explicite ou de formation séparée ; RT-2 les déchiffre en utilisant sa compréhension inhérente et agit en conséquence.

Voici pourquoi cette avancée est essentielle et ses implications futures :

  • Les modèles de langage, comme RT-2, fonctionnent comme des moteurs cognitifs globaux. Leur capacité à généraliser et à transférer les connaissances entre les domaines signifie qu'ils sont adaptables à des applications variées.
  • Les chercheurs n'ont intentionnellement pas utilisé les modèles les plus avancés pour leur étude, dans le but de garantir que chaque modèle réponde en une seconde (c'est-à-dire une fréquence d'action robotique d'au moins 1 Hertz). Hypothétiquement, intégrer un modèle comme GPT-4 et modèle visuel supérieur pourrait donner des résultats encore plus convaincants.
  • Les données complètes sont encore rares. Cependant, la transition de l'état actuel à un ensemble de données holistique, allant des chaînes de production en usine aux tâches ménagères, devrait prendre environ un à deux ans. Il s'agit d'une estimation provisoire, de sorte que les experts dans le domaine peuvent offrir plus de précision. Cet afflux de données entraînera inévitablement des avancées significatives.
  • Alors que le RT-2 a été développé en utilisant une technique spécifique, de nombreuses autres méthodes existent. L'avenir réserve probablement une fusion de ces méthodologies, améliorer les capacités robotiques. Une approche prospective pourrait consister à former des robots à l'aide de vidéos d'activités humaines. Il n'y a pas besoin d'enregistrements exclusifs - des plateformes comme TikTok et YouTube offrent un vaste référentiel de ce contenu.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
NuLink se lance sur Bybit Web3 Plateforme IDO. La phase de souscription s'étend jusqu'au 13 mai
Marchés Rapport de nouvelles Technologie
NuLink se lance sur Bybit Web3 Plateforme IDO. La phase de souscription s'étend jusqu'au 13 mai
9 mai 2024
UXLINK et Binance collaborent sur une nouvelle campagne, offrant aux utilisateurs 20 millions de points UXUY et Airdrop Programme de fidélité
Marchés Rapport de nouvelles Technologie
UXLINK et Binance collaborent sur une nouvelle campagne, offrant aux utilisateurs 20 millions de points UXUY et Airdrop Programme de fidélité
9 mai 2024
Side Protocol lance un testnet incitatif et présente un système de points Insider, permettant aux utilisateurs de gagner des points SIDE
Marchés Rapport de nouvelles Technologie
Side Protocol lance un testnet incitatif et présente un système de points Insider, permettant aux utilisateurs de gagner des points SIDE
9 mai 2024
Web3 et événements Crypto en mai 2024 : exploration des nouvelles technologies et des tendances émergentes dans la blockchain et DeFi
Digérer La Brochure Marchés Technologie
Web3 et événements Crypto en mai 2024 : exploration des nouvelles technologies et des tendances émergentes dans la blockchain et DeFi
9 mai 2024
CRYPTOMERIA LABS PTE. LTD.