Physical Intelligence presenta la arquitectura MEM para brindar a los robots la memoria necesaria para las tareas del mundo real.
En Resumen
Los investigadores desarrollaron Multi-Scale Embodied Memory, un sistema que proporciona a los robots memoria a corto y largo plazo para que puedan seguir el progreso y completar tareas complejas en lugar de simplemente ejecutar acciones aisladas.
Durante años, el sueño de un robot doméstico verdaderamente útil ha estado engañosamente cerca. Los robots ya pueden seguir órdenes como "lava la sartén", "dobla la ropa" o "prepara un sándwich". En entornos de laboratorio, estos sistemas demuestran una destreza y precisión impresionantes. Sin embargo, a pesar de los rápidos avances en los modelos básicos de robótica, falta algo fundamental: la memoria.
Un robot capaz de ejecutar una sola tarea no es lo mismo que un robot capaz de completar un trabajo. Limpiar una cocina entera, cocinar o preparar ingredientes para una receta requiere más que habilidades aisladas. Requiere continuidad: la capacidad de recordar lo que ya se ha hecho, lo que aún queda por hacer y dónde se encuentra cada cosa. Sin ese hilo conductor, incluso el robot más capaz se vuelve sorprendentemente incompetente.
Este es el desafío que los investigadores de Physical Intelligence están tratando de resolver con una nueva arquitectura llamada Memoria Incorporada Multiescala (MEM), un sistema diseñado para dar a los robots memoria tanto a corto como a largo plazo para que puedan realizar tareas que se desarrollan en minutos en lugar de segundos.
Los resultados apuntan a algo importante: el futuro de la robótica puede depender menos de mejores manos mecánicas y más de una mejor arquitectura cognitiva.
Los modelos robóticos modernos ya poseen un notable conjunto de habilidades motoras. Pueden agarrar objetos frágiles, manipular herramientas y desenvolverse en entornos desordenados. Pero si le pides a un robot que limpie una cocina completa (limpiar encimeras, guardar la compra, lavar platos y organizar los utensilios), las limitaciones se hacen evidentes enseguida.
El problema no son las habilidades en sí, sino cómo se coordinan. Las tareas complejas requieren atención constante. Un robot debe recordar qué armarios ya ha abierto, dónde colocó la tapa de una olla o si ya ha lavado un plato. También debe rastrear objetos que se pierden de vista y mantener un mapa mental del entorno mientras realiza nuevas acciones.
La cognición humana logra esto sin esfuerzo. Las máquinas, hasta hace poco, no lo hacían. Almacenar cada observación que un robot ve durante minutos u horas es computacionalmente inviable. Pero descartar esa información conduce a un comportamiento caótico: errores repetidos, pasos olvidados o acciones que contradicen decisiones previas. En la investigación robótica, este desafío a veces se describe como "confusión causal", donde los sistemas malinterpretan eventos pasados y refuerzan comportamientos erróneos.
El resultado: robots que parecen impresionantes en demostraciones cortas pero que tienen dificultades para completar tareas del mundo real.
Un sistema de memoria para la inteligencia física
La arquitectura MEM aborda este problema introduciendo una estructura de memoria multicapa. En lugar de almacenar todo por igual, el sistema divide la memoria en dos formas complementarias:
La memoria visual a corto plazo captura observaciones recientes mediante una eficiente arquitectura de codificación de video. Esto permite al robot comprender el movimiento, rastrear objetos a través de fotogramas y recordar eventos ocurridos segundos atrás, cruciales para acciones precisas como dar la vuelta a un sándwich de queso a la plancha o fregar un plato.
La memoria conceptual a largo plazo, por su parte, almacena el progreso de la tarea en lenguaje natural. En lugar de recordar datos visuales sin procesar en...defiFinalmente, el robot escribe breves “notas” textuales que describen lo que ha sucedido: frases como “Coloqué la olla en el fregadero” o “Saqué la leche del refrigerador”.
Estos resúmenes forman parte del proceso de razonamiento del robot. De hecho, la máquina construye su propia narrativa de la tarea. El motor de razonamiento del sistema decide entonces dos cosas simultáneamente: qué acción realizar a continuación y qué información conviene recordar. Esta combinación permite al modelo realizar un seguimiento de tareas de hasta quince minutos de duración, mucho más que la mayoría de las demostraciones robóticas anteriores.
Una de las capacidades más fascinantes que permite la MEM es la adaptación contextual. Los robots cometen errores. Es inevitable. Pero la mayoría de los sistemas robóticos los repiten constantemente porque no tienen memoria de los fallos.
La diferencia se hace evidente en experimentos sencillos. En una prueba, un robot intenta agarrar un palillo plano. Sin memoria, la máquina intenta repetidamente el mismo agarre sin éxito. Con la memoria activada, el robot recuerda el intento fallido e intenta un enfoque diferente, que finalmente lo consigue.
Otro ejemplo es la apertura de un refrigerador. Con solo datos visuales, el robot no puede determinar inmediatamente en qué dirección se abre la puerta. Un sistema sin memoria simplemente repite la misma acción una y otra vez. Un robot con memoria intenta abrir una dirección, recuerda el fallo y luego intenta abrir la puerta en la dirección opuesta.
Estos pequeños ajustes representan algo profundo: la capacidad de aprender dentro de la propia tarea. En lugar de depender completamente de los datos de entrenamiento, el robot se adapta sobre la marcha.
Los investigadores evaluaron el sistema de memoria en tareas cada vez más complejas. Primero, un reto relativamente sencillo: preparar un sándwich de queso a la plancha. Esto requirió memoria a corto plazo para gestionar el tiempo al realizar pasos físicos delicados como dar la vuelta al pan y emplatarlo.
A continuación, llegó una tarea logística: recuperar los ingredientes para una receta. El robot tenía que recordar qué artículos ya había recogido, dónde estaban y si los cajones y armarios estaban cerrados. Finalmente, llegó el escenario más exigente: limpiar una cocina entera.
Esto significaba guardar objetos, lavar platos, limpiar las encimeras y hacer un seguimiento de qué partes de la habitación ya se habían limpiado.
El modelo con memoria aumentada superó significativamente a las versiones sin memoria estructurada, demostrando mayor confiabilidad y tasas de finalización de tareas.
La diferencia ilustra un cambio clave en la robótica: en lugar de optimizar acciones aisladas, los investigadores ahora están construyendo sistemas capaces de realizar flujos de trabajo sostenidos.
Por qué la memoria es la próxima frontera en la robótica
La implicación más amplia del MEM es que la robótica está entrando en una nueva fase. Durante décadas, este campo se centró en la percepción y el control: ayudar a las máquinas a ver el mundo y manipular objetos. Más recientemente, los grandes modelos multimodales han mejorado drásticamente la capacidad de los robots para interpretar instrucciones y ejecutar comportamientos motores complejos.
Pero a medida que estas capacidades maduran, el cuello de botella se desplaza. El siguiente reto es la continuidad cognitiva: permitir que los robots operen durante periodos prolongados sin perder de vista sus objetivos. Los sistemas de memoria como MEM proporcionan el andamiaje para dicha continuidad. En lugar de reaccionar momento a momento, los robots pueden mantener una narrativa interna sobre sus acciones, decisiones y entorno. Esta narrativa es lo que permite que surja un comportamiento complejo.
Si este enfoque continúa evolucionando, las implicaciones se extenderán mucho más allá de la limpieza de cocinas. Los robots del futuro podrían necesitar seguir instrucciones que se desarrollan durante horas o incluso días. Imagine decirle a un asistente doméstico:
“Llego a casa a las 6 p. m. — Por favor, ten la cena lista y limpia la casa los miércoles”.
Ejecutar una solicitud de este tipo requeriría analizar instrucciones largas, planificar subtareas, recordar el progreso y adaptarse cuando las cosas salen mal.
Mantener un historial de video sin procesar de cada acción durante tanto tiempo sería imposible. En cambio, los robots probablemente dependerán de sistemas de memoria jerárquicos, donde las experiencias se comprimen en representaciones cada vez más abstractas.
MEM es un primer paso hacia esa arquitectura. Sugiere que la clave para robots más capaces podría no residir en motores más potentes ni sensores más precisos, sino en una mejor memoria y la capacidad de razonar sobre ella. Si los robots finalmente pueden recordar lo que están haciendo, también podrían ser capaces de terminar el trabajo.
Renuncia de responsabilidad:
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el autor
Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, IA, inversiones y el amplio campo de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.
Más artículos
Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, IA, inversiones y el amplio campo de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.



