Fyzikální inteligence představuje architekturu MEM, která robotům poskytuje paměť potřebnou pro úkoly v reálném světě
Stručně
Vědci vyvinuli systém Multi-Scale Embodied Memory, který robotům poskytuje krátkodobou a dlouhodobou paměť, aby mohli sledovat svůj pokrok a plnit složité úkoly, místo aby jen vykonávali izolované akce.
Sen o skutečně užitečném domácím robotovi byl po léta zdánlivě blízko. Roboti již dokáží plnit povely jako „umyj pánev“, „slož prádlo“ nebo „udělej sendvič“. V laboratorním prostředí tyto systémy prokazují působivou obratnost a přesnost. Navzdory rychlému pokroku v modelech robotických základů však chybí něco zásadního: paměť.
Robot, který dokáže vykonat jeden úkol, není totéž co robot, který dokáže dokončit práci. Úklid celé kuchyně, vaření jídla nebo příprava ingrediencí na recept vyžaduje více než jen izolované dovednosti. Vyžaduje kontinuitu – schopnost pamatovat si, co již bylo hotovo, co se ještě musí stát a kde se co nachází. Bez této narativní nitky se i ten nejschopnější robot stává překvapivě neschopným.
Tuto výzvu se nyní vědci z Physical Intelligence snaží vyřešit pomocí nové architektury nazvané Multi-Scale Embodied Memory (MEM) – systému navrženého tak, aby robotům poskytoval krátkodobou i dlouhodobou paměť, aby mohli vykonávat úkoly, které se odehrávají v řádu minut místo sekund.
Výsledky naznačují něco důležitého: budoucnost robotiky může méně záviset na lepších mechanických rukou a více na lepší kognitivní architektuře.
Moderní robotické modely již disponují pozoruhodnou knihovnou motorických dovedností. Dokážou uchopit křehké předměty, manipulovat s nástroji a orientovat se v přeplněném prostředí. Pokud ale požádáte robota, aby uklidil plnou kuchyň – utřel linky, uklidil potraviny, umyl nádobí a uspořádal kuchyňské náčiní – omezení se rychle stanou zřejmými.
Problém není v samotných dovednostech. Problém je v tom, jak jsou tyto dovednosti koordinovány. Složité úkoly vyžadují neustálou pozornost. Robot si musí pamatovat, které skříňky již otevřel, kam položil poklici od hrnce nebo zda již umyl nádobí. Musí také sledovat objekty, které mizí z dohledu, a udržovat si mentální mapu prostředí při provádění nových akcí.
Lidské poznávání to zvládá bez námahy. Stroje to až donedávna nedělaly. Ukládání každého pozorování, které robot vidí, po dobu několika minut nebo hodin je výpočetně neproveditelné. Ale zahození těchto informací vede k chaotickému chování – opakovaným chybám, zapomenutým krokům nebo akcím, které jsou v rozporu s dřívějšími rozhodnutími. Ve výzkumu robotiky se tento problém někdy popisuje jako „kauzální zmatek“, kdy systémy špatně interpretují minulé události a posilují nesprávné chování.
Výsledek: roboti, kteří v krátkých ukázkách vypadají působivě, ale v reálném světě se potýkají s plněním úkolů.
Paměťový systém pro fyzickou inteligenci
Architektura MEM řeší tento problém zavedením vícevrstvé paměťové struktury. Místo rovnoměrného ukládání všeho systém rozděluje paměť do dvou doplňkových forem:
Krátkodobá vizuální paměť zachycuje nedávná pozorování pomocí efektivní architektury kódování videa. To umožňuje robotovi rozumět pohybu, sledovat objekty napříč snímky a pamatovat si události, které se staly před několika sekundami – což je klíčové pro přesné akce, jako je otočení sendviče s grilovaným sýrem nebo drhnutí nádobí.
Dlouhodobá konceptuální paměť si naopak ukládá postup úkolu v přirozeném jazyce. Místo pamatování si surových vizuálních dat vdefiNakonec robot zapíše krátké textové „poznámky“ popisující, co se stalo – prohlášení jako „Položil jsem hrnec do dřezu“ nebo „Vyndal jsem mléko z lednice“.
Tato shrnutí se stávají součástí robotického uvažovacího procesu. Stroj si v podstatě vytváří vlastní příběh úkolu. Systémový uvažovací engine pak rozhoduje o dvou věcech současně: jakou akci provést dále a jaké informace si zapamatovat. Tato kombinace umožňuje modelu sledovat úkoly trvající až patnáct minut – mnohem déle než většina předchozích robotických demonstrací.
Jednou z nejzajímavějších schopností, které MEM umožňuje, je adaptace v kontextu. Roboti dělají chyby. To je nevyhnutelné. Většina robotických systémů však tyto chyby opakuje donekonečna, protože si nepamatují selhání.
Rozdíl je zřejmý v jednoduchých experimentech. V jednom testu se robot pokouší zvednout plochou hůlku. Bez paměti stroj opakovaně zkouší stejný neúspěšný úchop. S aktivovanou pamětí si robot neúspěšný pokus zapamatuje a zkusí jiný přístup – nakonec uspěje.
Dalším příkladem je otevření ledničky. Pouhými vizuálními daty robot nedokáže okamžitě určit, kterým směrem se dveře otevírají. Systém bez paměti jednoduše opakuje stejnou akci znovu a znovu. Robot s pamětí se pokusí o jeden směr, zapamatuje si chybu a poté se pokusí o opačnou stranu.
Tyto malé úpravy představují něco hlubokého: schopnost učit se v rámci samotného úkolu. Místo aby se robot spoléhal výhradně na tréninková data, přizpůsobuje se za chodu.
Výzkumníci hodnotili systém založený na paměti na stále složitějších úkolech. Nejprve přišla relativně jednoduchá výzva: příprava sendviče s grilovaným sýrem. To vyžadovalo krátkodobou paměť pro zvládání načasování při provádění jemných fyzických kroků, jako je obracení chleba a natírání sendviče.
Dále přišel logistický úkol: shromažďování ingrediencí pro recept. Robot si musel pamatovat, které položky již nasbíral, kde se nacházely a zda byly zavřené zásuvky a skříňky. Nakonec přišel nejnáročnější scénář: úklid celé kuchyně.
To znamenalo uklízení předmětů, mytí nádobí, utírání pracovní desky a sledování, které části místnosti již byly uklizené.
Model s rozšířenou pamětí výrazně překonal verze bez strukturované paměti a prokázal vyšší spolehlivost a míru dokončení úkolů.
Tento rozdíl ilustruje klíčový posun v robotice. Místo optimalizace izolovaných akcí nyní vědci vytvářejí systémy schopné udržitelných pracovních postupů.
Proč je paměť další hranicí v robotice
Širší důsledek MEM spočívá v tom, že robotika vstupuje do nové fáze. Po celá desetiletí se tento obor zaměřoval na vnímání a řízení: pomáhal strojům vidět svět a manipulovat s objekty. V poslední době velké multimodální modely dramaticky zlepšily schopnost robotů interpretovat instrukce a provádět složité motorické chování.
Ale s tím, jak tyto schopnosti dozrávají, se úzké hrdlo posouvá. Další výzvou je kognitivní kontinuita – umožnit robotům fungovat po delší dobu, aniž by ztratili přehled o svých cílech. Paměťové systémy, jako je MEM, poskytují pro tuto kontinuitu oporu. Místo toho, aby roboti reagovali okamžik po okamžiku, si mohou udržovat vnitřní narativ o svých činech, rozhodnutích a prostředí. Tento narativ umožňuje vznik komplexního chování.
Pokud se tento přístup bude dále vyvíjet, důsledky sahají daleko za hranice úklidu kuchyní. Budoucí roboti možná budou muset plnit pokyny, které se odehrávají v průběhu hodin nebo dokonce dnů. Představte si, že říkáte domácímu asistentovi:
„Domů se dostanu v 6 hodin – ve středu mě prosím připravte večeři a ukliďte dům.“
Provedení takového požadavku by vyžadovalo analýzu dlouhých instrukcí, plánování dílčích úkolů, zapamatování si postupu a přizpůsobení se, když se něco pokazí.
Udržovat tak dlouhou dobu nezpracovanou video historii každé akce by bylo nemožné. Roboti se místo toho pravděpodobně budou spoléhat na hierarchické paměťové systémy, kde jsou zkušenosti komprimovány do stále abstraktnějších reprezentací.
MEM je prvním krokem k této architektuře. Naznačuje, že klíčem k výkonnějším robotům nemusí být silnější motory ani ostřejší senzory, ale lepší paměť – a schopnost o tom uvažovat. Pokud si roboti konečně dokážou pamatovat, co dělají, mohou být také konečně schopni dokončit práci.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.
Další články
Alisa, oddaná novinářka v MPost, specializuje se na kryptoměny, umělou inteligenci, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.



