01 sierpnia 2023 r.

Is GPT-4 Zamierzasz doładować robotykę? Dlaczego RT-2 zmienia wszystko

Opublikowano: 01 sierpnia 2023 o 3:58 Zaktualizowano: 01 sierpnia 2023 o 3:58

Edytowane i sprawdzone pod kątem faktów: 01 sierpnia 2023 o 3:58

W skrócie

Firma Google DeepMind opracowała aplikacje modeli wizyjno-językowych dla kompleksowe sterowanie robotem, koncentrując się na ich zdolności do uogólniania i przenoszenia wiedzy między domenami.

Model RT-2, zaprojektowany do generowania sekwencji zdolnych do zakodowania ogromnych ilości informacji, został przetestowany w różnych scenariuszach, w tym nieznanych obiektach, różnych tłach i różnych środowiskach.

Model RT-2 przewyższa niektórych swoich poprzedników w dostosowywaniu się do nowych warunków, głównie dzięki rozbudowanemu modelowi językowemu.

Google DeepMind zbadał aplikacje modeli języka wizyjnego, koncentrując się na ich potencjale w zakresie kompleksowej kontroli robotów. Dochodzenie to miało na celu ustalenie, czy modele te były zdolne do szerokiego uogólnienia. Ponadto zbadano, czy w tym kontekście mogą pojawić się pewne funkcje poznawcze, takie jak rozumowanie i planowanie, często kojarzone z ekspansywnymi modelami językowymi.

Is GPT-4 Zamierzasz doładować robotykę? Dlaczego RT-2 zmienia wszystko — kredyt: Metaverse Post / Stable Diffusion

Podstawowa przesłanka tej eksploracji jest nierozerwalnie związana z charakterystyką dużych modeli językowych (LLM). Taki modele są przeznaczone do generowania dowolna sekwencja zdolna do zakodowania szerokiego zakresu informacji. Obejmuje to nie tylko wspólny język lub kod programowania, taki jak Python, ale także określone polecenia które mogą kierować działaniami robotów.

Aby spojrzeć na to z perspektywy, rozważ zdolność modelu do zrozumienia i przetłumaczenia określonych sekwencji strun na możliwe do wykonania polecenia robota. Dla ilustracji, wygenerowany ciąg, taki jak „1 128 91 241 5 101 127 217”, można zdekodować w następujący sposób:

Początkowa cyfra, jeden, oznacza, że zadanie nadal trwa i nie zostało zakończone.
Kolejna triada liczb, 128-91-241, oznacza względne i znormalizowane przesunięcie w trzech wymiarach przestrzeni.
Zestaw końcowy, 101-127-217, określa stopień obrotu funkcjonalnego segmentu ramienia robota.

Taka konfiguracja umożliwia robotowi zmodyfikować swój stan w sześciu stopniach swobody. Rysowanie paraleli, tak jak modele językowe asymilować ogólne idee i koncepcje z obszernych danych tekstowych w Internecie, model RT-2 wyodrębnia wiedzę z informacji internetowych, aby kierować działaniami robotów.

Potencjalne implikacje tego są znaczące. Jeśli model jest wystawiony na wyselekcjonowany zestaw trajektorii, które zasadniczo wskazują, że „aby osiągnąć określony wynik, mechanizm chwytający robota musi poruszać się w określony sposób”, to oczywiste jest, że transformator może generować spójne działania zgodne z to wejście.

Kluczowym aspektem podlegającym ocenie była zdolność do wykonywać nowe zadania nie objęte szkoleniem. Można to przetestować na kilka różnych sposobów:

1) Nieznane przedmioty: Czy model może replikować zadanie po wprowadzeniu do obiektów, na których nie był szkolony? Sukces w tym aspekcie zależy od przekształcenia przekazu wizualnego z kamery w wektor, który może zinterpretować model językowy. Model powinien następnie być w stanie rozpoznać jego znaczenie, powiązać termin z jego odpowiednikiem w świecie rzeczywistym, a następnie poprowadzić ramię robota, aby działało zgodnie z nim.

2) Różne tła: Jak reaguje model, gdy większość przekazu wizualnego składa się z nowych elementów, ponieważ tło lokalizacji zadania zostało całkowicie zmienione? Na przykład zmiana w tabelach lub nawet zmiana warunków oświetleniowych.

3) Zróżnicowane środowiska: Rozszerzając poprzedni punkt, co jeśli cała lokalizacja jest inna?

Dla ludzi te scenariusze wydają się proste – oczywiście, jeśli ktoś może wyrzucić puszkę w swoim pokoju, powinien to zrobić również na zewnątrz, prawda? (Na marginesie, zaobserwowałem kilka osób w parkach zmagających się z tym pozornie prostym zadaniem). Jednak w przypadku maszyn są to wyzwania, którymi należy się zająć.

Dane graficzne pokazują, że model RT-2 przewyższa niektórych swoich poprzedników, jeśli chodzi o dostosowanie się do nowych warunków. Ta wyższość w dużej mierze wynika z wykorzystania ekspansywnego modelu językowego, wzbogaconego mnóstwem tekstów, które przetworzył podczas fazy szkoleniowej.

Jednym z ograniczeń, na które zwrócili uwagę badacze, jest niezdolność modelu do przystosowania się do zupełnie nowych umiejętności. Na przykład nie zrozumiałby podnoszenia przedmiotu z lewej lub prawej strony, gdyby nie było to częścią jego treningu. W przeciwieństwie do modeli językowych, takich jak ChatGPT pokonali tę przeszkodę raczej bez wysiłku. Przetwarzając ogromne ilości danych w niezliczonych zadaniach, modele te mogą szybko odszyfrowywać i reagować na nowe żądania, nawet jeśli nigdy wcześniej się z nimi nie spotkały.

Tradycyjnie roboty działały przy użyciu kombinacji skomplikowanych systemów. W tych konfiguracjach systemy rozumowania wyższego poziomu i podstawowe systemy manipulacji często współdziałały bez wydajnej komunikacji, podobne do grania w grę „zepsuty telefon”. Wyobraź sobie konceptualizację działania w myślach, a następnie przekazanie tego ciału w celu wykonania. Nowo wprowadzony model RT-2 usprawnia ten proces. Umożliwia modelowi jednego języka podejmowanie wyrafinowanego rozumowania, a także wysyłanie bezpośrednich poleceń do robota. Pokazuje, że przy minimalnych danych treningowych robot może wykonywać czynności, których nie nauczył się wprost.

Na przykład, aby umożliwić starszym systemom wyrzucanie odpadów, wymagały specjalnego szkolenia w zakresie identyfikacji, zbierania i usuwania śmieci. W przeciwieństwie do tego, RT-2 posiada już podstawową wiedzę na temat odpadów, potrafi je rozpoznać bez ukierunkowanego szkolenia i może się ich pozbyć nawet bez uprzedniej instrukcji dotyczącej działania. Zastanów się nad złożonym pytaniem: „co stanowi odpad?” Jest to trudna koncepcja do sformalizowania. Torebka po chipsach lub skórka od banana staje się odpadem pokonsumpcyjnym. Takie zawiłości nie wymagają wyraźnego wyjaśnienia ani osobnego szkolenia; RT-2 rozszyfrowuje je, używając swojego wrodzonego zrozumienia i postępuje zgodnie z nimi.

Oto dlaczego ten postęp jest kluczowy i jego przyszłe implikacje:

Modele językowe, takie jak RT-2, funkcjonują jako wszechstronne silniki kognitywne. Ich zdolność do uogólniania i przenoszenia wiedzy między domenami oznacza, że można je dostosować do różnych zastosowań.
Naukowcy celowo nie wykorzystali do swoich badań najbardziej zaawansowanych modeli, chcąc mieć pewność, że każdy model zadziała w ciągu sekundy (co oznacza częstotliwość działania robota wynoszącą co najmniej 1 herc). Hipotetycznie, integrując model taki jak GPT-4 oraz doskonały model wizualny może przynieść jeszcze bardziej przekonujące wyniki.
Kompleksowe dane są nadal rzadkie. Przewiduje się jednak, że przejście od obecnego stanu do całościowego zbioru danych, od fabrycznych linii produkcyjnych po prace domowe, zajmie około jednego do dwóch lat. Jest to wstępne oszacowanie, więc eksperci w tej dziedzinie mogą zaoferować większą precyzję. Ten napływ danych nieuchronnie doprowadzi do znacznych postępów.
Chociaż RT-2 został opracowany przy użyciu określonej techniki, istnieje wiele innych metod. W przyszłości prawdopodobnie nastąpi fuzja tych metodologii zwiększanie możliwości robotów. Jedno z perspektywicznych podejść mogłoby obejmować szkolenie robotów przy użyciu filmów przedstawiających działania człowieka. Nie ma potrzeby tworzenia ekskluzywnych nagrań – platformy takie jak TikTok i YouTube oferują ogromne repozytorium takich treści.

Przeczytaj więcej o sztucznej inteligencji:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow