Srpna 01, 2023

Is GPT-4 Chystáte se na Supercharge Robotics? Proč RT-2 všechno mění

Zveřejněno: 01. srpna 2023 v 3:58 Aktualizováno: 01. srpna 2023 v 3:58

Upraveno a ověřeno: 01. srpna 2023 v 3:58

Stručně

Google DeepMind vyvinul aplikace pro modelování vize jazyka end-to-end robotické ovládáníse zaměřením na jejich schopnost zobecňovat a přenášet znalosti napříč doménami.

Model RT-2, navržený tak, aby generoval sekvence schopné zakódovat obrovské množství informací, byl testován v různých scénářích, včetně neznámých objektů, různých pozadí a různých prostředí.

Model RT-2 překonává některé své předchůdce v přizpůsobování se novým podmínkám, a to především díky svému rozsáhlému jazykovému modelu.

Google DeepMind zkoumal aplikace modelu zrakového jazykase zaměřením na jejich potenciál pro end-to-end robotické řízení. Toto šetření se snažilo zjistit, zda jsou tyto modely schopny širokého zobecnění. Dále zkoumala, zda by se v tomto kontextu mohly objevit určité kognitivní funkce, jako je uvažování a plánování, které jsou často spojovány s expanzivními jazykovými modely.

Is GPT-4 Chystáte se na Supercharge Robotics? Proč RT-2 všechno mění — Credit: Metaverse Post / Stable Diffusion

Základní předpoklad tohoto zkoumání je vnitřně spojen s charakteristikami velkých jazykových modelů (LLM). Takový modely jsou navrženy tak, aby generovaly jakákoli sekvence schopná zakódovat širokou škálu informací. To zahrnuje nejen běžný jazyk nebo programovací kód jako Python, ale také specifické příkazy které mohou řídit robotické akce.

Abychom to uvedli do perspektivy, zvažte schopnost modelu porozumět a převést specifické sekvence řetězců do použitelných robotických příkazů. Pro ilustraci, vygenerovaný řetězec jako „1 128 91 241 5 101 127 217“ lze dekódovat následujícím způsobem:

Počáteční číslice, jedna, znamená, že úkol stále probíhá a není dokončen.
Následující trojice čísel, 128-91-241, označuje relativní a normalizovaný posun napříč třemi dimenzemi prostoru.
Závěrečná sada, 101-127-217, přesně určuje stupeň rotace funkčního segmentu ramene robota.

Taková konfigurace umožňuje robota změnit jeho stav v šesti stupních volnosti. Kreslení paralely, stejně jazykové modely Model RT-2 využívá obecné myšlenky a koncepty z rozsáhlých textových dat na internetu a získává znalosti z webových informací, aby mohl vést robotické akce.

Potenciální důsledky tohoto jsou významné. Pokud je model vystaven upravené sadě trajektorií, které v podstatě naznačují, že „k dosažení konkrétního výsledku se musí uchopovací mechanismus robota pohybovat specifickým způsobem“, pak je logické, že by transformátor mohl generovat koherentní akce v souladu s tento vstup.

Zásadním hodnoceným aspektem byla kapacita provádět nové úkoly, které nebyly pokryty během výcviku. To lze otestovat několika různými způsoby:

1) Neznámé předměty: Dokáže model replikovat úlohu, když je zaveden do objektů, na kterých nebyl trénován? Úspěch v tomto aspektu závisí na převodu vizuálního signálu z kamery do vektoru, který jazykový model dokáže interpretovat. Model by pak měl být schopen rozeznat jeho význam, propojit termín s jeho protějškem v reálném světě a následně navést robotickou ruku, aby podle toho jednala.

2) Různá pozadí: Jak model reaguje, když se většina vizuálního kanálu skládá z nových prvků, protože pozadí umístění úkolu bylo zcela změněno? Například změna tabulek nebo dokonce změna světelných podmínek.

3) Různá prostředí: Rozšíření předchozího bodu, co když je celé umístění samotné jiné?

Pro lidi se tyto scénáře zdají přímočaré – přirozeně, pokud někdo může odhodit plechovku ve svém pokoji, měl by to udělat i venku, ne? (Na okraj, pozoroval jsem několik jedinců v parcích, kteří se potýkali s tímto zdánlivě jednoduchým úkolem). Pro strojní zařízení jsou to však výzvy, které je třeba řešit.

Grafická data odhalují, že model RT-2 překonává některé své předchůdce, pokud jde o přizpůsobení se těmto novým podmínkám. Tato nadřazenost do značné míry pramení z využití rozsáhlého jazykového modelu obohaceného o množství textů, které zpracoval během své tréninkové fáze.

Jedním z omezení, na které výzkumníci upozornili, je neschopnost modelu přizpůsobit se zcela novým dovednostem. Například by nerozuměl zvedání předmětu z levé nebo pravé strany, pokud to nebylo součástí jeho tréninku. Naproti tomu jazykové modely jako ChatGPT překonali tuto překážku poměrně bez námahy. Díky zpracování obrovského množství dat v rámci nesčetných úkolů mohou tyto modely rychle dešifrovat a reagovat na nové požadavky, i když se s nimi nikdy předtím nesetkali.

Tradičně roboti operovali pomocí kombinací složitých systémů. V těchto nastaveních vyšší úrovně rozumových systémů a základní manipulační systémy často interagovaly bez účinné komunikace, jako hrát hru „rozbitého telefonu“. Představte si, že myšlenkově konceptualizujete akci a pak ji potřebujete předat svému tělu k provedení. Nově představený model RT-2 tento proces zefektivňuje. Umožňuje jednotnému jazykovému modelu provádět sofistikované uvažování a zároveň odesílat přímé příkazy robotovi. Ukazuje, že s minimálními tréninkovými daty může robot provádět činnosti, které se výslovně nenaučil.

Aby například starší systémy mohly likvidovat odpad, vyžadovaly zvláštní školení pro identifikaci, sběr a likvidaci odpadu. Naproti tomu RT-2 již má základní znalosti o odpadech, dokáže je rozpoznat bez cíleného školení a dokáže se jich zbavit i bez předchozího poučení o akci. Zamyslete se nad nuancovanou otázkou „co tvoří odpad? Tento koncept je náročný na formalizaci. Sáček na hranolky nebo banánová slupka po spotřebě přechází z položky na odpad. Takovéto složitosti nepotřebují výslovné vysvětlení nebo zvláštní školení; RT-2 je dešifruje pomocí svého přirozeného porozumění a podle toho jedná.

Zde je důvod, proč je tento pokrok klíčový a jeho budoucí důsledky:

Jazykové modely, jako je RT-2, fungují jako všezahrnující kognitivní motory. Jejich schopnost zobecňovat a přenášet znalosti napříč doménami znamená, že jsou adaptabilní na různé aplikace.
Výzkumníci záměrně nepoužili nejpokročilejší modely pro svou studii, s cílem zajistit, aby každý model reagoval během sekundy (což znamená frekvenci robotické akce alespoň 1 Hertz). Hypoteticky, integrace modelu jako GPT-4 a špičkový vizuální model může přinést ještě přesvědčivější výsledky.
Komplexních dat je stále poskrovnu. Předpokládá se však, že přechod ze současného stavu na holistický soubor dat, od továrních výrobních linek až po domácí práce, bude trvat přibližně jeden až dva roky. Jedná se o předběžný odhad, takže odborníci v oboru mohou nabídnout větší přesnost. Tento příliv dat nevyhnutelně povede k výraznému pokroku.
Zatímco RT-2 byl vyvinut pomocí specifické techniky, existuje mnoho dalších metod. Budoucnost pravděpodobně přinese fúzi těchto metodologií posílení robotických schopností. Jedním z možných přístupů by mohlo být školení robotů pomocí videí lidských činností. Není potřeba exkluzivních nahrávek – platformy jako TikTok a YouTube nabízejí rozsáhlé úložiště takového obsahu.

Přečtěte si více o AI:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov