A Physical Intelligence introduz a arquitetura MEM para dar aos robôs a memória necessária para tarefas do mundo real.
Em Breve
Pesquisadores desenvolveram a Memória Incorporada Multiescala, um sistema que fornece aos robôs memória de curto e longo prazo para que possam acompanhar o progresso e concluir tarefas complexas, em vez de apenas executar ações isoladas.
Durante anos, o sonho de um robô doméstico verdadeiramente útil esteve enganosamente próximo. Robôs já conseguem seguir comandos como “lavar a frigideira”, “dobrar a roupa” ou “fazer um sanduíche”. Em ambientes de laboratório, esses sistemas demonstram destreza e precisão impressionantes. No entanto, apesar dos rápidos avanços nos modelos básicos de robótica, algo fundamental tem faltado: memória.
Um robô capaz de executar uma única tarefa não é o mesmo que um robô capaz de concluir um trabalho. Limpar uma cozinha inteira, preparar uma refeição ou separar os ingredientes para uma receita exige mais do que habilidades isoladas. Exige continuidade — a capacidade de lembrar o que já foi feito, o que ainda precisa ser feito e onde tudo está localizado. Sem essa linha narrativa, até mesmo o robô mais capaz se torna surpreendentemente incompetente.
Este é o desafio que os pesquisadores da Physical Intelligence estão agora tentando resolver com uma nova arquitetura chamada Multi-Scale Embodied Memory (MEM, na sigla em inglês) — um sistema projetado para dar aos robôs memória de curto e longo prazo, para que possam executar tarefas que se desenrolam ao longo de minutos, em vez de segundos.
Os resultados sugerem algo importante: o futuro da robótica pode depender menos de mãos mecânicas melhores e mais de uma arquitetura cognitiva aprimorada.
Os modelos robóticos modernos já possuem um repertório notável de habilidades motoras. Eles conseguem agarrar objetos frágeis, manipular ferramentas e navegar em ambientes desorganizados. Mas peça a um robô para limpar uma cozinha inteira — limpando bancadas, guardando compras, lavando a louça e organizando os utensílios — e as limitações rapidamente se tornam óbvias.
O problema não são as habilidades em si. O problema é como essas habilidades são coordenadas. Tarefas complexas exigem atenção constante. Um robô precisa se lembrar de quais armários já abriu, onde colocou a tampa de uma panela ou se já lavou a louça. Ele também precisa rastrear objetos que saem do campo de visão e manter um mapa mental do ambiente enquanto executa novas ações.
A cognição humana faz isso sem esforço. As máquinas, até recentemente, não. Armazenar cada observação que um robô faz durante minutos ou horas é computacionalmente inviável. Mas descartar essa informação leva a um comportamento caótico — erros repetidos, etapas esquecidas ou ações que contradizem decisões anteriores. Na pesquisa em robótica, esse desafio é às vezes descrito como “confusão causal”, onde os sistemas interpretam erroneamente eventos passados e reforçam comportamentos incorretos.
O resultado: robôs que impressionam em demonstrações curtas, mas têm dificuldades para concluir tarefas do mundo real.
Um Sistema de Memória para Inteligência Física
A arquitetura MEM resolve esse problema introduzindo uma estrutura de memória multicamadas. Em vez de armazenar tudo igualmente, o sistema separa a memória em duas formas complementares:
A memória visual de curto prazo captura observações recentes usando uma arquitetura de codificação de vídeo eficiente. Isso permite que o robô entenda o movimento, rastreie objetos entre quadros e se lembre de eventos que aconteceram segundos atrás — crucial para ações precisas como virar um sanduíche de queijo grelhado ou lavar uma louça.
A memória conceitual de longo prazo, por sua vez, armazena o progresso da tarefa em linguagem natural. Em vez de memorizar dados visuais brutos emdefiEventualmente, o robô escreve breves "notas" descrevendo o que aconteceu — frases como "Coloquei a panela na pia" ou "Peguei o leite na geladeira".
Esses resumos tornam-se parte do processo de raciocínio do robô. Na prática, a máquina constrói sua própria narrativa da tarefa. O mecanismo de raciocínio do sistema decide então duas coisas simultaneamente: qual ação executar em seguida e quais informações valem a pena lembrar. Essa combinação permite que o modelo acompanhe tarefas com duração de até quinze minutos — muito mais tempo do que a maioria das demonstrações robóticas anteriores.
Uma das capacidades mais intrigantes possibilitadas pela MEM é a adaptação contextual. Robôs cometem erros. Isso é inevitável. Mas a maioria dos sistemas robóticos repete esses erros indefinidamente porque não têm memória das falhas.
A diferença torna-se óbvia em experiências simples. Num teste, um robô tenta pegar um palito plano. Sem memória, a máquina tenta repetidamente a mesma pega sem sucesso. Com a memória ativada, o robô lembra-se da tentativa falhada e tenta uma abordagem diferente — acabando por ter sucesso.
Outro exemplo envolve abrir uma geladeira. Apenas com base em dados visuais, o robô não consegue determinar imediatamente para qual lado a porta se abre. Um sistema sem memória simplesmente repete a mesma ação várias vezes. Um robô com memória tenta uma direção, memoriza a falha e então tenta o lado oposto.
Esses pequenos ajustes representam algo profundo: a capacidade de aprender durante a própria tarefa. Em vez de depender inteiramente de dados de treinamento, o robô se adapta em tempo real.
Os pesquisadores avaliaram o sistema com memória integrada em tarefas cada vez mais complexas. Primeiro, veio um desafio relativamente simples: fazer um sanduíche de queijo grelhado. Isso exigiu memória de curto prazo para gerenciar o tempo enquanto se realizavam etapas físicas delicadas, como virar o pão e colocar o sanduíche no prato.
Em seguida, veio uma tarefa logística: buscar os ingredientes para uma receita. O robô precisava se lembrar de quais itens já havia coletado, onde estavam localizados e se as gavetas e armários haviam sido fechados. Finalmente, chegou o cenário mais exigente: limpar uma cozinha inteira.
Isso significava guardar objetos, lavar a louça, limpar as bancadas e verificar quais partes do cômodo já haviam sido limpas.
O modelo com memória aumentada apresentou desempenho significativamente superior às versões sem memória estruturada, demonstrando maior confiabilidade e taxas de conclusão de tarefas mais elevadas.
Essa diferença ilustra uma mudança fundamental na robótica. Em vez de otimizar ações isoladas, os pesquisadores agora estão construindo sistemas capazes de fluxos de trabalho contínuos.
Por que a memória é a próxima fronteira na robótica
A implicação mais ampla do MEM é que a robótica está entrando em uma nova fase. Por décadas, o campo se concentrou na percepção e no controle: ajudando as máquinas a enxergar o mundo e manipular objetos. Mais recentemente, grandes modelos multimodais melhoraram drasticamente a capacidade dos robôs de interpretar instruções e executar comportamentos motores complexos.
Mas, à medida que essas capacidades amadurecem, o gargalo muda de lugar. O próximo desafio é a continuidade cognitiva — permitir que os robôs operem por longos períodos sem perder de vista seus objetivos. Sistemas de memória como o MEM fornecem a estrutura para essa continuidade. Em vez de reagir a cada instante, os robôs podem manter uma narrativa interna sobre suas ações, decisões e ambiente. Essa narrativa é o que permite o surgimento de comportamentos complexos.
Se essa abordagem continuar a evoluir, as implicações vão muito além da limpeza de cozinhas. Robôs do futuro poderão precisar seguir instruções que se desenrolam ao longo de horas ou até mesmo dias. Imagine dizer a um assistente doméstico:
“Chego em casa às 6h — por favor, deixe o jantar pronto e limpe a casa às quartas-feiras.”
Executar tal solicitação exigiria analisar instruções longas, planejar subtarefas, lembrar o progresso e se adaptar quando as coisas derem errado.
Manter um histórico de vídeo bruto de cada ação por tanto tempo seria impossível. Em vez disso, os robôs provavelmente dependerão de sistemas de memória hierárquicos, onde as experiências são comprimidas em representações cada vez mais abstratas.
A tecnologia MEM representa um primeiro passo em direção a essa arquitetura. Ela sugere que a chave para robôs mais capazes pode não estar em motores mais potentes ou sensores mais precisos, mas sim em uma memória melhor — e na capacidade de raciocinar sobre ela. Se os robôs finalmente conseguirem se lembrar do que estão fazendo, talvez também consigam concluir a tarefa.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.
Mais artigos
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.



