01. augusztus 2023.

Is GPT-4 Feltölti a Roboticsot? Miért változtat meg mindent az RT-2?

Közzétéve: 01. augusztus 2023., 3:58 Frissítve: 01. augusztus 2023., 3:58

Szerkesztve és tényszerűen ellenőrzött: 01. augusztus 2023. 3:58

Röviden

A Google DeepMind látásnyelvi modellalkalmazásokat fejlesztett ki a következőhöz végponttól végpontig terjedő robotvezérlés, összpontosítva arra a képességükre, hogy általánosítsák és átadják a tudást a különböző területeken.

Az RT-2 modellt, amelyet hatalmas mennyiségű információ kódolására képes szekvenciák generálására terveztek, különféle forgatókönyvekben tesztelték, beleértve az ismeretlen objektumokat, a különböző háttereket és a változatos környezeteket.

Az RT-2 modell felülmúlja egyes elődjeit az új feltételekhez való alkalmazkodásban, nagyrészt kiterjedt nyelvi modelljének köszönhetően.

A Google DeepMind a látásnyelvi modellalkalmazásokat vizsgálta, a végpontokig terjedő robotvezérlési lehetőségekre összpontosítva. Ez a vizsgálat azt kívánta meghatározni, hogy ezek a modellek képesek-e széles körű általánosításra. Továbbá azt vizsgálta, hogy ebben a kontextusban megjelenhetnek-e bizonyos kognitív funkciók, mint például az érvelés és a tervezés, amelyek gyakran társulnak az expanzív nyelvi modellekhez.

Is GPT-4 Feltölti a Roboticsot? Miért változtat meg mindent az RT-2? — jóváírás: Metaverse Post / Stable Diffusion

A feltárás mögött meghúzódó alapfeltevés szorosan kapcsolódik a nagy nyelvi modellek (LLM) jellemzőihez. Ilyen modellek létrehozására készültek bármilyen szekvencia, amely képes az információk széles körének kódolására. Ez nemcsak a közös nyelvet vagy programozási kódot, például a Pythont foglalja magában, hanem speciális parancsokat is amelyek irányíthatják a robotok cselekvéseit.

Ennek a perspektívájának a szemléltetéséhez vegye figyelembe a modell azon képességét, hogy bizonyos karakterlánc-szekvenciákat képes megérteni és végrehajtható robotparancsokká lefordítani. Illusztrációként egy generált karakterlánc, például „1 128 91 241 5 101 127 217”, a következő módon dekódolható:

A kezdeti számjegy egy azt jelenti, hogy a feladat még folyamatban van, és még nem fejeződött be.
A következő számhármas, 128-91-241, a tér három dimenziója között relatív és normalizált eltolódást jelöl.
A befejező készlet, 101-127-217, pontosan meghatározza a robot funkcionális karszegmensének forgási fokát.

Egy ilyen konfiguráció engedélyezi a robotot hogy módosítsa állapotát hat szabadsági fokon keresztül. Párhuzamot vonni, éppen úgy nyelvi modellek Az RT-2 modell a webalapú információkból nyeri ki a tudást, hogy irányítsa a robotikus műveleteket.

Ennek lehetséges következményei jelentősek. Ha egy modell ki van téve olyan pályák összegyűjtött halmazának, amelyek lényegében azt jelzik, hogy „egy adott eredmény eléréséhez a robot megfogó mechanizmusának meghatározott módon kell mozognia”, akkor magától értetődő, hogy a transzformátor koherens cselekvéseket generálhat, összhangban ezt a bemenetet.

Az értékelés során döntő szempont volt a képesség olyan újszerű feladatok végrehajtása, amelyekre a képzés során nem terjedtek ki. Ezt néhány különböző módon lehet tesztelni:

1) Ismeretlen tárgyak: Replikálhat-e a modell egy feladatot, ha olyan objektumokkal mutatkozik be, amelyekre nincs betanítva? Ebben a vonatkozásban a siker azon múlik, hogy a kamerából származó vizuális feedet vektorgá alakítjuk, amelyet a nyelvi modell képes értelmezni. A modellnek ezután képesnek kell lennie arra, hogy felismerje jelentését, összekapcsolja a kifejezést a valós megfelelőjével, és ezt követően irányítsa a robotkart a megfelelő cselekvésre.

2) Különböző hátterek: Hogyan reagál a modell, ha a vizuális feed nagy része új elemekből áll, mivel a feladat helyének hátterét teljesen megváltoztatták? Például a táblázatok változása vagy akár a fényviszonyok megváltozása.

3) Változatos környezetek: Az előző pontot kiterjesztve, mi van, ha maga az egész helyszín más?

Az emberek számára ezek a forgatókönyvek egyértelműnek tűnnek – természetesen, ha valaki eldobhat egy konzervet a szobájában, akkor ezt szabadban is megteheti, nem? (Megjegyzés: megfigyeltem néhány egyént a parkokban, akik ezzel a látszólag egyszerű feladattal küszködnek). A gépek esetében azonban ezek a kihívások továbbra is megoldandók.

A grafikus adatok azt mutatják, hogy az RT-2 modell jobban teljesít, mint egyes elődjei, ha az új feltételekhez kell alkalmazkodni. Ez a fölény nagyrészt egy kiterjedt nyelvi modell kihasználásából fakad, amelyet a képzési szakaszban feldolgozott szövegek sokasága gazdagít.

A kutatók egyik korlátja az, hogy a modell nem tud alkalmazkodni teljesen új készségekhez. Például nem értené meg egy tárgy bal vagy jobb oldaláról történő felemelését, ha ez nem képezte volna részét. Ezzel szemben a nyelvi modellek szeretik ChatGPT meglehetős erőfeszítés nélkül elhaladtak ezen az akadályon. Hatalmas mennyiségű adat feldolgozásával számtalan feladaton keresztül, ezek a modellek gyorsan megfejtik az új kéréseket és reagálnak rájuk, még akkor is, ha korábban soha nem találkoztak velük.

Hagyományosan a robotok bonyolult rendszerek kombinációival működtek. Ezekben a beállításokban a magasabb szintű érvelési rendszerek és az alapvető manipulációs rendszerek gyakran hatékony kommunikáció nélkül működtek együtt, játékhoz hasonlít „elromlott telefon”. Képzeld el, hogy egy cselekvést mentálisan konceptualizálsz, majd azt a testednek kell közvetítened a végrehajtáshoz. Az újonnan bemutatott RT-2 modell leegyszerűsíti ezt a folyamatot. Egyetlen nyelvű modellt tesz lehetővé, hogy kifinomult érvelést végezzen, miközben közvetlen parancsokat is küld a robotnak. Ez azt mutatja, hogy minimális edzési adatokkal a robot olyan tevékenységeket tud végrehajtani, amelyeket kifejezetten nem tanult meg.

Például annak érdekében, hogy a régebbi rendszerek el tudják dobni a hulladékot, speciális képzésre volt szükségük a szemét azonosításához, felszedéséhez és ártalmatlanításához. Ezzel szemben az RT-2 már rendelkezik a hulladékok alapismeretével, célzott képzés nélkül is felismeri, és előzetes cselekvési utasítás nélkül is képes ártalmatlanítani. Fontolja meg az árnyalt kérdést: „Mi minősül hulladéknak?” Ezt a koncepciót nehéz formalizálni. A chips zacskó vagy banánhéj fogyasztás utáni cikkből hulladékká válik. Az ilyen bonyolultságok nem igényelnek kifejezett magyarázatot vagy külön képzést; Az RT-2 megfejti őket a benne rejlő értelmezés alapján, és ennek megfelelően cselekszik.

Íme, miért kulcsfontosságú ez a fejlődés, és ennek jövőbeli következményei:

A nyelvi modellek, mint az RT-2, mindenre kiterjedő kognitív motorként működnek. Az a képességük, hogy általánosítsák és átadják a tudást a különböző területeken, azt jelenti, hogy alkalmazkodnak a különféle alkalmazásokhoz.
A kutatók szándékosan nem a legfejlettebb modelleket alkalmazták a tanulmányukhoz, és arra törekedtek, hogy minden modell egy másodpercen belül reagáljon (ami legalább 1 Hertz-es robotmûveleti frekvenciát jelent). Hipotetikusan egy olyan modell integrálása, mint GPT-4 és egy kiváló vizuális modell még meggyőzőbb eredményeket hozhatna.
Az átfogó adatok még mindig ritkák. A jelenlegi állapotról egy holisztikus adatkészletre való átállás azonban, amely a gyári gyártósoroktól a háztartási munkákig terjed, az előrejelzések szerint körülbelül egy-két évig tart. Ez egy előzetes becslés, így a terület szakértői pontosabbak lehetnek. Ez az adatáramlás elkerülhetetlenül jelentős előrelépéseket fog eredményezni.
Míg az RT-2-t speciális technikával fejlesztették ki, számos más módszer is létezik. A jövő valószínűleg ezen módszerek fúzióját is magában foglalja a robotikai képességek fejlesztése. Az egyik lehetséges megközelítés magában foglalhatja a robotok képzését emberi tevékenységekről készült videók segítségével. Nincs szükség exkluzív felvételekre – az olyan platformok, mint a TikTok és a YouTube, az ilyen tartalmak hatalmas tárházát kínálják.

Tudjon meg többet az AI-ról:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov