Opinion Technologie
05 mars

Physical Intelligence introduit l'architecture MEM pour doter les robots de la mémoire nécessaire aux tâches du monde réel.

En bref

Des chercheurs ont mis au point la mémoire incarnée multi-échelle, un système qui confère aux robots une mémoire à court et à long terme afin qu'ils puissent suivre leurs progrès et accomplir des tâches complexes au lieu de se contenter d'exécuter des actions isolées. 

Physical Intelligence introduit l'architecture MEM pour doter les robots de la mémoire nécessaire aux tâches du monde réel.

Depuis des années, le rêve d'un robot domestique véritablement utile semble à portée de main. Les robots peuvent déjà exécuter des commandes comme « laver la poêle », « plier le linge » ou « préparer un sandwich ». En laboratoire, ces systèmes font preuve d'une dextérité et d'une précision impressionnantes. Pourtant, malgré les progrès rapides réalisés dans le domaine des robots de base, un élément fondamental manquait : la mémoire.

Un robot capable d'exécuter une tâche unique n'est pas comparable à un robot capable de mener à bien un projet. Nettoyer une cuisine entière, préparer un repas ou rassembler les ingrédients d'une recette exige bien plus que des compétences isolées. Cela requiert une continuité : la capacité de se souvenir de ce qui a déjà été fait, de ce qui reste à faire et de l'emplacement de chaque chose. Sans ce fil conducteur, même le robot le plus performant peut se révéler étonnamment inefficace.

C’est le défi que les chercheurs de Physical Intelligence tentent actuellement de résoudre grâce à une nouvelle architecture appelée Multi-Scale Embodied Memory (MEM) — un système conçu pour doter les robots d’une mémoire à court et à long terme afin qu’ils puissent effectuer des tâches qui se déroulent sur plusieurs minutes au lieu de quelques secondes.

Ces résultats laissent entrevoir un point important : l’avenir de la robotique dépendra peut-être moins de meilleures mains mécaniques que d’une meilleure architecture cognitive.

Les robots modernes possèdent déjà une remarquable palette de compétences motrices. Ils peuvent saisir des objets fragiles, manipuler des outils et se déplacer dans des environnements encombrés. Mais demandez à un robot de nettoyer une cuisine entière — essuyer les plans de travail, ranger les courses, faire la vaisselle et ranger les ustensiles — et ses limites deviennent vite évidentes.

Le problème ne réside pas dans les compétences elles-mêmes, mais dans leur coordination. Les tâches complexes exigent une vigilance constante. Un robot doit se souvenir des placards qu'il a déjà ouverts, de l'endroit où il a posé un couvercle ou s'il a déjà lavé une assiette. Il doit également suivre du regard les objets qui sortent de son champ de vision et maintenir une représentation mentale de son environnement tout en effectuant de nouvelles actions.

La cognition humaine accomplit cela sans effort. Les machines, jusqu'à récemment, en étaient incapables. Stocker chaque observation d'un robot pendant des minutes ou des heures est informatiquement impossible. Or, ignorer ces informations engendre un comportement chaotique : erreurs répétées, étapes oubliées ou actions contredisant des décisions antérieures. En robotique, ce problème est parfois décrit comme une « confusion causale », où les systèmes interprètent mal les événements passés et renforcent les comportements inappropriés.

Résultat : des robots impressionnants lors de courtes démonstrations, mais qui peinent à accomplir des tâches concrètes.

Un système de mémoire pour l'intelligence physique

L'architecture MEM résout ce problème en introduisant une structure de mémoire multicouche. Au lieu de tout stocker de manière égale, le système sépare la mémoire en deux formes complémentaires :

La mémoire visuelle à court terme enregistre les observations récentes grâce à une architecture d'encodage vidéo performante. Cela permet au robot de comprendre les mouvements, de suivre les objets d'une image à l'autre et de se souvenir d'événements survenus quelques secondes auparavant — un point crucial pour des actions précises comme retourner un croque-monsieur ou laver une assiette.

La mémoire conceptuelle à long terme, quant à elle, stocke la progression des tâches en langage naturel. Plutôt que de se souvenir de données visuelles brutes endefiEnfin, le robot rédige de brèves « notes » textuelles décrivant ce qui s'est passé — des phrases comme « J'ai mis la casserole dans l'évier » ou « J'ai récupéré le lait dans le réfrigérateur ».

Ces résumés s'intègrent au processus de raisonnement du robot. De fait, la machine construit son propre récit de la tâche. Le moteur de raisonnement du système décide ensuite simultanément de deux choses : quelle action effectuer ensuite et quelles informations retenir. Cette combinaison permet au modèle de suivre des tâches d'une durée allant jusqu'à quinze minutes, soit bien plus longtemps que la plupart des démonstrations robotiques précédentes.

L'une des capacités les plus fascinantes offertes par MEM est l'adaptation au contexte. Les robots font des erreurs, c'est inévitable. Mais la plupart des systèmes robotiques répètent ces erreurs sans cesse car ils n'ont aucune mémoire de leurs échecs.

La différence devient flagrante lors d'expériences simples. Dans un test, un robot tente de saisir une baguette plate. Sans mémoire, la machine répète inlassablement la même prise, sans succès. Avec la mémoire activée, le robot se souvient de son échec et essaie une approche différente, finissant par réussir.

Un autre exemple concerne l'ouverture d'un réfrigérateur. À partir des seules données visuelles, le robot ne peut pas déterminer immédiatement dans quel sens la porte s'ouvre. Un système sans mémoire se contente de répéter la même action indéfiniment. Un robot doté d'une mémoire essaie dans un sens, se souvient de l'échec, puis tente l'autre côté.

Ces petits ajustements révèlent une capacité fondamentale : l’apprentissage au sein même de la tâche. Au lieu de se fier uniquement aux données d’entraînement, le robot s’adapte en temps réel.

Les chercheurs ont évalué le système de mémorisation sur des tâches de plus en plus complexes. Le premier défi, relativement simple, consistait à préparer un croque-monsieur. Cela nécessitait une mémoire à court terme pour gérer le timing tout en effectuant des gestes précis comme retourner le pain et dresser le sandwich.

Vint ensuite une tâche logistique : récupérer les ingrédients d’une recette. Le robot devait se souvenir des ingrédients déjà collectés, de leur emplacement et vérifier si les tiroirs et les placards étaient fermés. Enfin, vint le scénario le plus exigeant : nettoyer une cuisine entière.

Cela impliquait de ranger les objets, de faire la vaisselle, d'essuyer les plans de travail et de vérifier quelles parties de la pièce avaient déjà été nettoyées.

Le modèle à mémoire augmentée a surpassé de manière significative les versions sans mémoire structurée, démontrant une fiabilité et des taux d'achèvement des tâches supérieurs.

Cette différence illustre un changement majeur en robotique. Au lieu d'optimiser des actions isolées, les chercheurs conçoivent désormais des systèmes capables de flux de travail continus.

Pourquoi la mémoire est la prochaine frontière de la robotique

L'implication majeure des modèles multimodaux (MEM) est que la robotique entre dans une nouvelle ère. Pendant des décennies, ce domaine s'est concentré sur la perception et le contrôle : permettre aux machines de voir le monde et de manipuler des objets. Plus récemment, les grands modèles multimodaux ont considérablement amélioré la capacité des robots à interpréter les instructions et à exécuter des comportements moteurs complexes.

Mais à mesure que ces capacités se perfectionnent, le goulot d'étranglement se déplace. Le prochain défi est la continuité cognitive : permettre aux robots de fonctionner sur de longues périodes sans perdre de vue leurs objectifs. Les systèmes de mémoire comme MEM fournissent l'infrastructure nécessaire à cette continuité. Au lieu de réagir instantanément, les robots peuvent maintenir un récit interne de leurs actions, de leurs décisions et de leur environnement. C'est ce récit qui permet l'émergence de comportements complexes.

Si cette approche continue d'évoluer, ses implications iront bien au-delà du simple nettoyage des cuisines. Les robots du futur devront peut-être suivre des instructions qui se dérouleront sur plusieurs heures, voire plusieurs jours. Imaginez dire à un assistant vocal :

« Je rentre à la maison à 6h — merci de préparer le dîner et de faire le ménage le mercredi. »

L'exécution d'une telle requête nécessiterait d'analyser de longues instructions, de planifier des sous-tâches, de se souvenir de l'avancement et de s'adapter en cas de problème.

Conserver un historique vidéo brut de chaque action pendant une période aussi longue serait impossible. Les robots s'appuieront donc probablement sur des systèmes de mémoire hiérarchiques, où les expériences sont compressées en représentations de plus en plus abstraites.

MEM représente une première étape vers cette architecture. Cela suggère que la clé de robots plus performants réside peut-être moins dans des moteurs plus puissants ou des capteurs plus précis que dans une meilleure mémoire et la capacité de raisonner à partir de celle-ci. Si les robots parviennent enfin à se souvenir de ce qu'ils font, ils pourront enfin mener à bien leurs tâches.

Clause de non-responsabilité

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.

Plus d'articles
Alice Davidson
Alice Davidson

Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.

Hot Stories
Rejoignez notre newsletter.
Dernières actualités

Le calme avant la tempête Solana : ce que disent les cartes, les baleines et les signaux en chaîne

Solana a démontré de solides performances, portées par une adoption croissante, un intérêt institutionnel et des partenariats clés, tout en étant confrontée à un potentiel...

Savoir Plus

Cryptomonnaies en avril 2025 : tendances clés, évolutions et perspectives

En avril 2025, l'espace crypto s'est concentré sur le renforcement de l'infrastructure de base, Ethereum se préparant pour le Pectra...

Savoir Plus
Lire la suite
En savoir plus
Wall Street intensifie ses efforts dans le domaine des cryptomonnaies alors que le dépôt d'un ETF par Goldman Sachs et le débat sur la technologie quantique se heurtent à la stagnation du prix du Bitcoin.
Marchés Rapport de nouvelles Technologie
Wall Street intensifie ses efforts dans le domaine des cryptomonnaies alors que le dépôt d'un ETF par Goldman Sachs et le débat sur la technologie quantique se heurtent à la stagnation du prix du Bitcoin.
le 17 avril 2026
Au-delà des passerelles tierces : Ramp Network lance un portefeuille intégré pour simplifier l’accès aux cryptomonnaies inter-chaînes.
Rapport de nouvelles Technologie
Au-delà des passerelles tierces : Ramp Network lance un portefeuille intégré pour simplifier l’accès aux cryptomonnaies inter-chaînes.
le 17 avril 2026
Perplexity lance une application Mac « Personal Computer », intégrant des agents d'IA toujours actifs aux systèmes locaux et aux flux de travail cloud.
Rapport de nouvelles Technologie
Perplexity lance une application Mac « Personal Computer », intégrant des agents d'IA toujours actifs aux systèmes locaux et aux flux de travail cloud.
le 17 avril 2026
Bitcoin pris entre deux feux macroéconomiques : Arthur Hayes met en garde contre la déflation et l’incertitude en matière de liquidités alimentées par l’IA
Marchés Rapport de nouvelles Technologie
Bitcoin pris entre deux feux macroéconomiques : Arthur Hayes met en garde contre la déflation et l’incertitude en matière de liquidités alimentées par l’IA
le 17 avril 2026
CRYPTOMERIA LABS PTE. LTD.