Yttrande Teknologi
Mars 05, 2026

Fysisk intelligens introducerar MEM-arkitektur för att ge robotar det minne som behövs för verkliga uppgifter

I korthet

Forskare utvecklade Multi-Scale Embodied Memory, ett system som ger robotar kort- och långtidsminne så att de kan följa framsteg och slutföra komplexa uppgifter istället för att bara utföra isolerade handlingar. 

Fysisk intelligens introducerar MEM-arkitektur för att ge robotar det minne som behövs för verkliga uppgifter

I åratal har drömmen om en verkligt hjälpsam hushållsrobot varit bedrägligt nära. Robotar kan redan följa kommandon som "diska stekpannan", "vik tvätten" eller "gör en smörgås". I laboratoriemiljöer uppvisar dessa system imponerande fingerfärdighet och precision. Trots snabba framsteg inom robotfundamentmodeller har något grundläggande saknats: minne.

En robot som kan utföra en enda uppgift är inte samma sak som en robot som kan slutföra ett jobb. Att städa ett helt kök, laga en måltid eller förbereda ingredienser till ett recept kräver mer än isolerade färdigheter. Det kräver kontinuitet – förmågan att komma ihåg vad som redan har gjorts, vad som fortfarande behöver hända och var allt finns. Utan den narrativa tråden blir även den mest kapabla roboten förvånansvärt inkompetent.

Det är den utmaning som forskare vid Physical Intelligence nu försöker lösa med en ny arkitektur som kallas Multi-Scale Embodied Memory (MEM) – ett system utformat för att ge robotar både korttids- och långtidsminne så att de kan utföra uppgifter som utspelar sig över minuter istället för sekunder.

Resultaten antyder något viktigt: robotikens framtid kan bero mindre på bättre mekaniska händer och mer på bättre kognitiv arkitektur.

Moderna robotmodeller har redan ett anmärkningsvärt bibliotek av motoriska färdigheter. De kan greppa ömtåliga föremål, hantera verktyg och navigera i röriga miljöer. Men be en robot att städa ett komplett kök – torka av bänkskivor, ställa undan matvaror, diska och organisera redskap – och begränsningarna blir snabbt uppenbara.

Problemet är inte färdigheterna i sig. Problemet är hur dessa färdigheter koordineras. Komplexa uppgifter kräver ihållande medvetenhet. En robot måste komma ihåg vilka skåp den redan har öppnat, var den placerade ett kastrulllock eller om den redan har diskat. Den måste också spåra föremål som rör sig ur synhåll och upprätthålla en mental karta över omgivningen medan den utför nya handlingar.

Mänsklig kognition gör detta utan ansträngning. Maskiner har fram tills nyligen inte gjort det. Att lagra varje observation en robot ser i minuter eller timmar är beräkningsmässigt ogenomförbart. Men att ignorera den informationen leder till kaotiskt beteende – upprepade misstag, glömda steg eller handlingar som motsäger tidigare beslut. Inom robotforskning beskrivs denna utmaning ibland som "kausal förvirring", där system misstolkar tidigare händelser och förstärker felaktiga beteenden.

Resultatet: robotar som ser imponerande ut i korta demonstrationer men kämpar för att slutföra uppgifter i verkligheten.

Ett minnessystem för fysisk intelligens

MEM-arkitekturen åtgärdar detta problem genom att introducera en flerskiktad minnesstruktur. Istället för att lagra allt lika delar systemet minnet i två kompletterande former:

Korttidsminnet fångar aktuella observationer med hjälp av en effektiv videokodningsarkitektur. Detta gör att roboten kan förstå rörelse, spåra objekt över bildrutor och komma ihåg händelser som inträffade för sekunder sedan – avgörande för precisa handlingar som att vända en grillad ostsmörgås eller skrubba en tallrik.

Långtidsminnet lagrar å andra sidan uppgiftsförloppet i naturligt språk. Snarare än att komma ihåg rådata i visuella data idefiI kväll skriver roboten korta textmässiga "anteckningar" som beskriver vad som har hänt – uttalanden som "Jag ställde kannan i diskhon" eller "Jag hämtade mjölken från kylskåpet".

Dessa sammanfattningar blir en del av robotens resonemangsprocess. I själva verket bygger maskinen sin egen berättelse om uppgiften. Systemets resonemangsmotor bestämmer sedan två saker samtidigt: vilken åtgärd som ska utföras härnäst och vilken information som är värd att komma ihåg. Denna kombination gör att modellen kan spåra uppgifter som varar upp till femton minuter – mycket längre än de flesta tidigare robotdemonstrationer.

En av de mest spännande förmågorna som möjliggörs av MEM är kontextuell anpassning. Robotar gör misstag. Det är oundvikligt. Men de flesta robotsystem upprepar dessa misstag oändligt eftersom de inte har något minne av fel.

Skillnaden blir uppenbar i enkla experiment. I ett test försöker en robot plocka upp en platt ätpinne. Utan minne försöker maskinen upprepade gånger samma misslyckade grepp. Med minnet aktiverat kommer roboten ihåg det misslyckade försöket och försöker med en annan metod – och lyckas så småningom.

Ett annat exempel handlar om att öppna ett kylskåp. Enbart utifrån visuell data kan roboten inte omedelbart avgöra vilken riktning dörren öppnas. Ett minneslöst system upprepar helt enkelt samma handling om och om igen. En minnesaktiverad robot försöker i en riktning, kommer ihåg felet och försöker sedan i motsatt riktning.

Dessa små justeringar representerar något djupgående: förmågan att lära sig inom själva uppgiften. Istället för att helt förlita sig på träningsdata anpassar roboten sig i farten.

Forskarna utvärderade det minnesaktiverade systemet på alltmer komplexa uppgifter. Först kom en relativt enkel utmaning: att göra en grillad ostsmörgås. Detta krävde korttidsminne för att hantera timing medan man utförde känsliga fysiska steg som att vända bröd och lägga upp smörgåsen på tallrikar.

Sedan kom en logistisk uppgift: att hämta ingredienser till ett recept. Roboten var tvungen att komma ihåg vilka varor den redan hade samlat in, var de fanns och om lådor och skåp hade stängts. Slutligen kom det mest krävande scenariot: att städa ett helt kök.

Det innebar att lägga undan föremål, diska, torka av bänkskivor och hålla koll på vilka delar av rummet som redan hade städats.

Den minnesutökade modellen presterade betydligt bättre än versioner utan strukturerat minne, vilket visade högre tillförlitlighet och hastigheter för slutförande av uppgifter.

Skillnaden illustrerar ett viktigt skifte inom robotteknik. Istället för att optimera isolerade handlingar bygger forskare nu system som kan hantera hållbara arbetsflöden.

Varför minne är nästa gräns inom robotik

Den bredare implikationen av MEM är att robotik går in i en ny fas. I årtionden fokuserade området på perception och kontroll: att hjälpa maskiner att se världen och manipulera objekt. På senare tid har stora multimodala modeller dramatiskt förbättrat robotars förmåga att tolka instruktioner och utföra komplexa motoriska beteenden.

Men allt eftersom dessa förmågor mognar har flaskhalsen flyttats. Nästa utmaning är kognitiv kontinuitet – att göra det möjligt för robotar att arbeta under längre perioder utan att tappa koll på sina mål. Minnessystem som MEM utgör grunden för den kontinuiteten. Istället för att reagera ögonblick för ögonblick kan robotar upprätthålla en intern berättelse om sina handlingar, beslut och omgivning. Det är denna berättelse som gör att komplext beteende kan uppstå.

Om detta tillvägagångssätt fortsätter att utvecklas sträcker sig konsekvenserna långt bortom att bara städa kök. Framtida robotar kan behöva följa instruktioner som utspelar sig under timmar eller till och med dagar. Tänk dig att säga till en hemassistent:

"Jag kommer hem klockan 6 — var snäll och gör middagen klar och städa huset på onsdagar."

Att utföra en sådan begäran skulle kräva att man analyserar långa instruktioner, planerar deluppgifter, kommer ihåg framsteg och anpassar sig när saker går fel.

Att upprätthålla en rå videohistorik över varje handling under så lång tid skulle vara omöjligt. Istället kommer robotar sannolikt att förlita sig på hierarkiska minnessystem, där upplevelser komprimeras till alltmer abstrakta representationer.

MEM är ett tidigt steg mot den arkitekturen. Det antyder att nyckeln till mer kapabla robotar kanske inte är starkare motorer eller skarpare sensorer, utan bättre minne – och förmågan att resonera kring det. Om robotar äntligen kan komma ihåg vad de gör, kan de också äntligen kunna avsluta jobbet.

Ansvarsfriskrivning

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

fler artiklar
Alisa Davidson
Alisa Davidson

Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Lugnet före Solana-stormen: Vad diagram, valar och signaler på kedjan säger nu

Solana har visat starka resultat, drivet av ökande implementering, institutionellt intresse och viktiga partnerskap, samtidigt som den står inför potentiella ...

Lär dig mer

Krypto i april 2025: Viktiga trender, förändringar och vad som kommer härnäst

I april 2025 fokuserade kryptomarknaden på att stärka kärninfrastrukturen, där Ethereum förberedde sig för Pectra ...

Lär dig mer
Läs mer
Läs mer
Bitget lanserar CFD-kopiahandel mitt i ökande efterfrågan på exponering över flera marknader
Nyhetsrapport Teknologi
Bitget lanserar CFD-kopiahandel mitt i ökande efterfrågan på exponering över flera marknader
14 april 2026
Tether introducerar plånbok för att ge slutanvändare tillgång till digitala tillgångar med självförvaring över hela den globala marknaden
Nyhetsrapport Teknologi
Tether introducerar plånbok för att ge slutanvändare tillgång till digitala tillgångar med självförvaring över hela den globala marknaden
14 april 2026
Googles nya "Vantage"-plattform använder AI-avatarer för att testa kritiskt tänkande, samarbete och verkliga färdigheter
Nyhetsrapport Teknologi
Googles nya "Vantage"-plattform använder AI-avatarer för att testa kritiskt tänkande, samarbete och verkliga färdigheter
14 april 2026
Hongkong värdar Digital Quantity 2026-toppmötet som utforskar AI-driven handel, tokenisering och investeringsstrategier över flera marknader
Hacka säsonger Livsstil Nyhetsrapport Teknologi
Hongkong värdar Digital Quantity 2026-toppmötet som utforskar AI-driven handel, tokenisering och investeringsstrategier över flera marknader
14 april 2026