Opinia Technologia
05 marca 2026 r.

Inteligencja fizyczna wprowadza architekturę MEM, aby zapewnić robotom pamięć potrzebną do zadań w świecie rzeczywistym

W skrócie

Naukowcy opracowali Multi-Scale Embodied Memory, system, który zapewnia robotom pamięć krótko- i długoterminową, dzięki czemu mogą one śledzić postępy i wykonywać złożone zadania, zamiast wykonywać tylko pojedyncze czynności. 

Inteligencja fizyczna wprowadza architekturę MEM, aby zapewnić robotom pamięć potrzebną do zadań w świecie rzeczywistym

Od lat marzenie o prawdziwie pomocnym robocie domowym było pozornie bliskie. Roboty potrafią już wykonywać polecenia takie jak „umyj patelnię”, „złóż pranie” czy „zrób kanapkę”. W warunkach laboratoryjnych systemy te wykazują imponującą zręczność i precyzję. Jednak pomimo szybkiego postępu w modelach podstaw robotycznych, brakowało czegoś fundamentalnego: pamięci.

Robot, który potrafi wykonać pojedyncze zadanie, to nie to samo, co robot, który potrafi wykonać całą pracę. Sprzątanie całej kuchni, gotowanie posiłku czy przygotowywanie składników do przepisu wymaga czegoś więcej niż tylko umiejętności izolowania się. Wymaga ciągłości – zdolności pamiętania, co już zostało zrobione, co jeszcze musi się wydarzyć i gdzie wszystko się znajduje. Bez tej narracji nawet najzdolniejszy robot staje się zaskakująco niekompetentny.

To właśnie to wyzwanie próbują obecnie rozwiązać naukowcy z Physical Intelligence za pomocą nowej architektury zwanej Multi-Scale Embodied Memory (MEM) — systemu zaprojektowanego w celu zapewnienia robotom zarówno pamięci krótkotrwałej, jak i długotrwałej, aby mogły wykonywać zadania trwające minuty, a nie sekundy.

Wyniki wskazują na coś ważnego: przyszłość robotyki może zależeć mniej od lepszych mechanicznych rąk, a bardziej od lepszej architektury poznawczej.

Nowoczesne modele robotów posiadają już imponujący zestaw umiejętności motorycznych. Potrafią chwytać delikatne przedmioty, posługiwać się narzędziami i poruszać się po zaśmieconym otoczeniu. Ale poproś robota o posprzątanie całej kuchni – wytarcie blatów, odłożenie zakupów, umycie naczyń i uporządkowanie sztućców – a ograniczenia szybko staną się oczywiste.

Problemem nie są same umiejętności. Problemem jest to, jak te umiejętności są koordynowane. Złożone zadania wymagają ciągłej uwagi. Robot musi pamiętać, które szafki już otwierał, gdzie położył pokrywkę garnka lub czy już umył naczynie. Musi również śledzić obiekty, które znikają z pola widzenia, i tworzyć mentalną mapę otoczenia podczas wykonywania nowych czynności.

Ludzkie poznanie robi to bez wysiłku. Maszyny do niedawna nie potrafiły tego zrobić. Przechowywanie każdej obserwacji robota przez minuty lub godziny jest obliczeniowo niewykonalne. Jednak odrzucenie tych informacji prowadzi do chaotycznych zachowań – powtarzających się błędów, zapomnianych kroków lub działań sprzecznych z wcześniejszymi decyzjami. W badaniach nad robotyką to wyzwanie jest czasami określane jako „pomieszanie przyczyn”, gdzie systemy błędnie interpretują przeszłe zdarzenia i wzmacniają niewłaściwe zachowania.

Efekt: roboty, które robią wrażenie na krótkich demonstracjach, ale mają problemy z wykonywaniem zadań w prawdziwym świecie.

System pamięci dla inteligencji fizycznej

Architektura MEM rozwiązuje ten problem, wprowadzając wielowarstwową strukturę pamięci. Zamiast przechowywać wszystko po równo, system dzieli pamięć na dwie uzupełniające się formy:

Krótkotrwała pamięć wzrokowa rejestruje ostatnie obserwacje za pomocą wydajnej architektury kodowania wideo. Pozwala to robotowi rozumieć ruch, śledzić obiekty w różnych klatkach i zapamiętywać zdarzenia sprzed kilku sekund – co jest kluczowe dla precyzyjnych czynności, takich jak przerzucanie grillowanej kanapki z serem czy szorowanie talerza.

Tymczasem długotrwała pamięć koncepcyjna przechowuje postępy zadań w języku naturalnym. Zamiast zapamiętywać surowe dane wizualne wdefiostatecznie robot pisze krótkie tekstowe „notatki” opisujące, co się wydarzyło — stwierdzenia takie jak „Postawiłem garnek w zlewie” lub „Wyjąłem mleko z lodówki”.

Podsumowania te stają się częścią procesu rozumowania robota. W efekcie maszyna buduje własną narrację dotyczącą zadania. Silnik rozumowania systemu decyduje następnie jednocześnie o dwóch rzeczach: jaką czynność wykonać dalej i jakie informacje warto zapamiętać. Ta kombinacja pozwala modelowi śledzić zadania trwające do piętnastu minut – znacznie dłużej niż większość poprzednich demonstracji robotycznych.

Jedną z najbardziej intrygujących możliwości, jakie oferuje MEM, jest adaptacja kontekstowa. Roboty popełniają błędy. To nieuniknione. Jednak większość systemów robotycznych powtarza te błędy w nieskończoność, ponieważ nie pamiętają błędów.

Różnica staje się oczywista w prostych eksperymentach. W jednym z testów robot próbuje podnieść płaską pałeczkę. Bez pamięci maszyna wielokrotnie próbuje tego samego, nieudanego chwytu. Z włączoną pamięcią robot zapamiętuje nieudaną próbę i próbuje innego podejścia – ostatecznie odnosząc sukces.

Innym przykładem jest otwieranie lodówki. Na podstawie samych danych wizualnych robot nie jest w stanie natychmiast określić, w którą stronę otwierają się drzwi. System bez pamięci po prostu powtarza tę samą czynność w kółko. Robot z pamięcią próbuje otworzyć drzwi w jednym kierunku, zapamiętuje błąd, a następnie próbuje otworzyć drzwi w przeciwnym kierunku.

Te drobne zmiany symbolizują coś głębokiego: zdolność uczenia się w trakcie wykonywania zadania. Zamiast polegać wyłącznie na danych szkoleniowych, robot dostosowuje się na bieżąco.

Naukowcy przetestowali system oparty na pamięci w coraz bardziej złożonych zadaniach. Najpierw pojawiło się stosunkowo proste wyzwanie: przygotowanie kanapki z grillowanym serem. Wymagało to pamięci krótkotrwałej, aby zarządzać czasem podczas wykonywania delikatnych czynności fizycznych, takich jak przewracanie chleba i nakładanie kanapki na talerz.

Następnie pojawiło się zadanie logistyczne: znalezienie składników do przepisu. Robot musiał zapamiętać, które produkty już zebrał, gdzie się znajdują oraz czy szuflady i szafki były zamknięte. Na koniec nadszedł najtrudniejszy scenariusz: posprzątanie całej kuchni.

Oznaczało to odkładanie przedmiotów na miejsce, mycie naczyń, wycieranie blatów i sprawdzanie, które części pomieszczenia zostały już posprzątane.

Model wzbogacony o pamięć znacznie przewyższył wersje bez pamięci strukturalnej, wykazując się większą niezawodnością i szybkością realizacji zadań.

Różnica ta ilustruje istotną zmianę w robotyce. Zamiast optymalizować pojedyncze czynności, naukowcy budują teraz systemy zdolne do realizacji zrównoważonych przepływów pracy.

Dlaczego pamięć jest nową granicą robotyki

Szersze implikacje MEM wskazują, że robotyka wkracza w nową fazę. Przez dekady dziedzina ta koncentrowała się na percepcji i sterowaniu: pomagając maszynom postrzegać świat i manipulować obiektami. Ostatnio duże modele multimodalne znacząco poprawiły zdolność robotów do interpretowania instrukcji i wykonywania złożonych zachowań motorycznych.

Jednak wraz z rozwojem tych możliwości, wąskie gardło zostało przesunięte. Kolejnym wyzwaniem jest ciągłość poznawcza – umożliwienie robotom działania przez dłuższy czas bez utraty orientacji w celach. Systemy pamięci, takie jak MEM, stanowią rusztowanie dla tej ciągłości. Zamiast reagować z chwili na chwilę, roboty mogą utrzymywać wewnętrzną narrację dotyczącą swoich działań, decyzji i otoczenia. Ta narracja pozwala na wyłonienie się złożonych zachowań.

Jeśli to podejście będzie się nadal rozwijać, konsekwencje wykroczą daleko poza sprzątanie kuchni. Roboty przyszłości mogą być zmuszone do wykonywania instrukcji, które będą się rozwijać godzinami, a nawet dniami. Wyobraź sobie, że mówisz asystentowi domowemu:

„Wracam do domu o 18:00 — proszę przygotować kolację i posprzątać dom w środy”.

Wykonanie takiego żądania wymagałoby analizy długich instrukcji, planowania podzadań, zapamiętywania postępów i dostosowywania się, gdy coś pójdzie nie tak.

Przechowywanie surowej historii wideo każdej czynności przez tak długi czas byłoby niemożliwe. Zamiast tego roboty prawdopodobnie będą polegać na hierarchicznych systemach pamięci, w których doświadczenia są kompresowane do coraz bardziej abstrakcyjnych reprezentacji.

MEM to wczesny krok w kierunku tej architektury. Sugeruje ona, że ​​kluczem do bardziej wydajnych robotów mogą nie być mocniejsze silniki ani precyzyjniejsze czujniki, ale lepsza pamięć – i zdolność do logicznego myślenia. Jeśli roboty w końcu zapamiętają, co robią, mogą w końcu dokończyć zadanie.

Zastrzeżenie

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, sztucznej inteligencji, inwestycjach i rozległym obszarze Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.

Więcej artykułów
Alisę Davidson
Alisę Davidson

Alisa, oddana dziennikarka w MPost, specjalizuje się w kryptowalutach, sztucznej inteligencji, inwestycjach i rozległym obszarze Web3. Ze szczególnym uwzględnieniem pojawiających się trendów i technologii zapewnia wszechstronne informacje, aby informować czytelników i angażować ich w stale zmieniający się krajobraz finansów cyfrowych.

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wiadomości

Cisza przed sztormem Solana: co mówią teraz wykresy, wieloryby i sygnały łańcuchowe

Solana wykazała się solidnymi wynikami, na co wpływ miał rosnący popyt, zainteresowanie instytucji i kluczowe partnerstwa, mimo iż musiała stawić czoła potencjalnym...

Dowiedz się więcej

Krypto w kwietniu 2025: Kluczowe trendy, zmiany i co dalej

W kwietniu 2025 r. przestrzeń kryptowalutowa skupiła się na wzmocnieniu podstawowej infrastruktury, a Ethereum przygotowywało się na Pectra ...

Dowiedz się więcej
Czytaj więcej
Przeczytaj więcej
BlackRock, HSBC i Standard Chartered będą przemawiać na konferencji HSC Asset Management, podczas gdy TradFi spotka się z Digital Assets w Hongkongu w kwietniu tego roku
Sezony hackowania Business Styl życia Raport aktualności
BlackRock, HSBC i Standard Chartered będą przemawiać na konferencji HSC Asset Management, podczas gdy TradFi spotka się z Digital Assets w Hongkongu w kwietniu tego roku
13 kwietnia 2026 r.
Francja plasuje się na czele finansów cyfrowych, a Tydzień Blockchain w Paryżu zwiększa udział polityczny i instytucjonalny
Styl życia Raport aktualności Technologia
Francja plasuje się na czele finansów cyfrowych, a Tydzień Blockchain w Paryżu zwiększa udział polityczny i instytucjonalny
13 kwietnia 2026 r.
Raport podkreśla, że ​​obrót aktywami innymi niż kryptowaluty stanowił prawie 40% wolumenu Bitget w pierwszym kwartale 2026 r.
Raport aktualności Technologia
Raport podkreśla, że ​​obrót aktywami innymi niż kryptowaluty stanowił prawie 40% wolumenu Bitget w pierwszym kwartale 2026 r.
13 kwietnia 2026 r.
Brickken uzyskał certyfikat ISO 27001:2022 i jest zgodny z przepisami DORA
Raport aktualności Technologia
Brickken uzyskał certyfikat ISO 27001:2022 i jest zgodny z przepisami DORA
13 kwietnia 2026 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.