Augusta 01, 2023

Is GPT-4 Chystáte sa na Supercharge Robotics? Prečo RT-2 všetko mení

Zverejnené: 01. augusta 2023 o 3:58 Aktualizované: 01. augusta 2023 o 3:58

Upravené a skontrolované: 01. augusta 2023 o 3:58

Stručne

Google DeepMind vyvinul aplikácie pre modelovanie vízií end-to-end robotické ovládanieso zameraním na ich schopnosť zovšeobecňovať a prenášať poznatky naprieč doménami.

Model RT-2, navrhnutý na generovanie sekvencií schopných zakódovať obrovské množstvo informácií, bol testovaný v rôznych scenároch, vrátane neznámych objektov, rôznych pozadí a rôznych prostredí.

Model RT-2 prekonáva niektorých svojich predchodcov v prispôsobovaní sa novým podmienkam, najmä vďaka svojmu rozsiahlemu jazykovému modelu.

Google DeepMind skúmal aplikácie modelu zrakového jazykaso zameraním na ich potenciál pre komplexné robotické riadenie. Cieľom tohto vyšetrovania bolo zistiť, či sú tieto modely schopné širokého zovšeobecnenia. Ďalej skúmala, či by sa v tomto kontexte mohli objaviť určité kognitívne funkcie, ako je uvažovanie a plánovanie, ktoré sú často spojené s rozsiahlymi jazykovými modelmi.

Is GPT-4 Chystáte sa na Supercharge Robotics? Prečo RT-2 všetko mení — kredit: Metaverse Post / Stable Diffusion

Základný predpoklad tohto skúmania je vnútorne spojený s charakteristikami veľkých jazykových modelov (LLM). Takéto modely sú navrhnuté tak, aby generovali akákoľvek sekvencia schopná zakódovať širokú škálu informácií. To zahŕňa nielen bežný jazyk alebo programovací kód ako Python, ale aj špecifické príkazy ktoré môžu riadiť robotické akcie.

Aby ste to uviedli do perspektívy, zvážte schopnosť modelu porozumieť a preložiť špecifické reťazcové sekvencie do použiteľných robotických príkazov. Na ilustráciu, vygenerovaný reťazec ako „1 128 91 241 5 101 127 217“ možno dekódovať nasledujúcim spôsobom:

Počiatočná číslica, jedna, znamená, že úloha stále prebieha a nie je dokončená.
Následná trojica čísel, 128-91-241, označuje relatívny a normalizovaný posun cez tri dimenzie priestoru.
Záverečná sada 101-127-217 presne určuje stupeň rotácie funkčného segmentu ramena robota.

Takáto konfigurácia umožňuje robota zmeniť jeho stav v šiestich stupňoch voľnosti. Kreslenie paralely, rovnako jazykové modely Osvojiť si všeobecné myšlienky a koncepty z rozsiahlych textových údajov na internete, model RT-2 extrahuje poznatky z webových informácií, aby usmernil robotické akcie.

Potenciálne dôsledky tohto sú významné. Ak je model vystavený upravenému súboru trajektórií, ktoré v podstate naznačujú, „aby sa dosiahol konkrétny výsledok, musí sa uchopovací mechanizmus robota pohybovať špecifickým spôsobom“, potom je logické, že transformátor by mohol generovať koherentné akcie v súlade s tento vstup.

Rozhodujúcim aspektom pri hodnotení bola kapacita vykonávať nové úlohy, ktoré nie sú zahrnuté počas výcviku. Dá sa to otestovať niekoľkými rôznymi spôsobmi:

1) Neznáme predmety: Dokáže model replikovať úlohu, keď je zavedený do objektov, na ktorých nebol trénovaný? Úspech v tomto aspekte závisí od prevodu vizuálneho signálu z kamery na vektor, ktorý jazykový model dokáže interpretovať. Model by potom mal byť schopný rozlíšiť jeho význam, prepojiť výraz s jeho náprotivkom v reálnom svete a následne viesť robotické rameno, aby podľa toho konalo.

2) Rôzne pozadia: Ako model reaguje, keď väčšina vizuálneho kanála pozostáva z nových prvkov, pretože pozadie umiestnenia úlohy bolo úplne zmenené? Napríklad zmena tabuliek alebo dokonca zmena svetelných podmienok.

3) Rôznorodé prostredia: Rozšírením predchádzajúceho bodu, čo ak je celé umiestnenie iné?

Pre ľudí sa tieto scenáre zdajú jednoduché – prirodzene, ak niekto môže odhodiť plechovku vo svojej izbe, mal by to urobiť aj vonku, však? (Na okraj, pozoroval som niekoľko jedincov v parkoch, ktorí zápasili s touto zdanlivo jednoduchou úlohou). Pre strojové zariadenia sú to však výzvy, ktoré treba riešiť.

Grafické údaje odhaľujú, že model RT-2 prekonáva niektorých svojich predchodcov, pokiaľ ide o prispôsobenie sa týmto novým podmienkam. Táto nadradenosť do značnej miery pramení z využitia rozsiahleho jazykového modelu obohateného o množstvo textov, ktoré spracoval počas svojej tréningovej fázy.

Jedným z obmedzení, ktoré výskumníci zdôraznili, je neschopnosť modelu prispôsobiť sa úplne novým zručnostiam. Napríklad by nerozumel zdvíhaniu predmetu z ľavej alebo pravej strany, ak to nebolo súčasťou jeho tréningu. Naproti tomu jazykové modely ako ChatGPT prekonali túto prekážku pomerne bez námahy. Spracovaním obrovského množstva údajov v rámci nespočetného množstva úloh môžu tieto modely rýchlo dešifrovať a reagovať na nové požiadavky, aj keď sa s nimi nikdy predtým nestretli.

Roboty tradične fungujú pomocou kombinácií zložitých systémov. V týchto nastaveniach systémy uvažovania vyššej úrovne a základné manipulačné systémy často interagovali bez efektívnej komunikácie, ako hrať hru „rozbitého telefónu“. Predstavte si, že si mentálne predstavíte nejakú akciu a potom ju budete musieť odovzdať svojmu telu na vykonanie. Novo predstavený model RT-2 zefektívňuje tento proces. Umožňuje jednotnému jazykovému modelu vykonávať sofistikované uvažovanie a zároveň odosielať robotovi priame príkazy. Ukazuje, že s minimálnymi tréningovými údajmi môže robot vykonávať činnosti, ktoré sa explicitne nenaučil.

Napríklad, aby staršie systémy umožnili vyhadzovať odpad, vyžadovali si špecifické školenie na identifikáciu, vyberanie a likvidáciu odpadu. Naproti tomu RT-2 už má základné znalosti o odpade, dokáže ho rozpoznať bez cieleného školenia a dokáže ho zneškodniť aj bez predchádzajúceho poučenia o činnosti. Zamyslite sa nad nuansovanou otázkou: „Čo tvorí odpad? Ide o náročný koncept na formalizáciu. Vrecko na lupienky alebo banánová šupka po spotrebovaní prechádzajú z položky na odpad. Takéto zložitosti nepotrebujú explicitné vysvetlenie alebo samostatné školenie; RT-2 ich dešifruje pomocou svojho prirodzeného chápania a podľa toho koná.

Tu je dôvod, prečo je tento pokrok kľúčový a jeho budúce dôsledky:

Jazykové modely, ako napríklad RT-2, fungujú ako všetko zahŕňajúce kognitívne motory. Ich schopnosť zovšeobecňovať a prenášať znalosti naprieč doménami znamená, že sú prispôsobiteľné rôznym aplikáciám.
Výskumníci zámerne nepoužili najpokročilejšie modely pre svoju štúdiu, s cieľom zabezpečiť, aby každý model reagoval do sekundy (čo znamená frekvenciu robotickej akcie najmenej 1 Hertz). Hypoteticky, integrácia modelu ako GPT-4 a špičkový vizuálny model môže priniesť ešte presvedčivejšie výsledky.
Komplexných údajov je stále málo. Predpokladá sa však, že prechod zo súčasného stavu na holistický súbor údajov, od továrenských výrobných liniek až po domáce práce, bude trvať približne jeden až dva roky. Toto je predbežný odhad, takže odborníci v tejto oblasti môžu ponúknuť väčšiu presnosť. Tento prílev údajov bude nevyhnutne viesť k výraznému pokroku.
Zatiaľ čo RT-2 bol vyvinutý pomocou špecifickej techniky, existuje množstvo ďalších metód. Budúcnosť pravdepodobne prinesie fúziu týchto metodológií zvýšenie robotických schopností. Jeden perspektívny prístup by mohol zahŕňať tréning robotov pomocou videí s ľudskými aktivitami. Nie sú potrebné exkluzívne nahrávky – platformy ako TikTok a YouTube ponúkajú rozsiahle úložisko takéhoto obsahu.

Prečítajte si viac o AI:

Tagy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.

Ďalšie články

Damir Yalalov