Analyse Technologie
01. August 2023

Is GPT-4 Sind Sie kurz davor, die Robotik auf Hochtouren zu bringen? Warum RT-2 alles verändert

In Kürze

Google DeepMind hat Vision-Language-Modellanwendungen für entwickelt End-to-End-RobotersteuerungDabei liegt der Schwerpunkt auf ihrer Fähigkeit, Wissen bereichsübergreifend zu verallgemeinern und zu übertragen.

Das RT-2-Modell wurde entwickelt, um Sequenzen zu generieren, die große Informationsmengen kodieren können, und wurde in verschiedenen Szenarien getestet, darunter unbekannte Objekte, unterschiedliche Hintergründe und unterschiedliche Umgebungen.

Das RT-2-Modell übertrifft einige seiner Vorgänger bei der Anpassung an neue Bedingungen, was vor allem auf sein umfangreiches Sprachmodell zurückzuführen ist.

Google DeepMind untersuchte Anwendungen von Vision-Language-Modellen, wobei der Schwerpunkt auf ihrem Potenzial für eine durchgängige Robotersteuerung liegt. Ziel dieser Untersuchung war es festzustellen, ob diese Modelle für eine breite Verallgemeinerung geeignet sind. Darüber hinaus wurde untersucht, ob in diesem Zusammenhang bestimmte kognitive Funktionen wie Denken und Planen entstehen könnten, die häufig mit expansiven Sprachmodellen verbunden sind.

Is GPT-4 Sind Sie kurz davor, die Robotik auf Hochtouren zu bringen? Warum RT-2 alles verändert
Kredit: Metaverse Post / Stable Diffusion

Die grundlegende Prämisse dieser Untersuchung ist untrennbar mit den Merkmalen großer Sprachmodelle (LLMs) verbunden. Solch Modelle sollen generieren jede Sequenz, die eine große Bandbreite an Informationen kodieren kann. Dazu gehören nicht nur gängige Sprachen oder Programmiercodes wie Python, sondern auch spezifische Befehle das Roboteraktionen leiten kann.

Um dies ins rechte Licht zu rücken, betrachten Sie die Fähigkeit des Modells, bestimmte Zeichenfolgensequenzen zu verstehen und in umsetzbare Roboterbefehle zu übersetzen. Zur Veranschaulichung kann eine generierte Zeichenfolge wie „1 128 91 241 5 101 127 217“ auf folgende Weise dekodiert werden:

  • Die Anfangsziffer eins bedeutet, dass die Aufgabe noch läuft und noch nicht abgeschlossen ist.
  • Der darauffolgende Zahlendreiklang 128-91-241 bezeichnet eine relative und normierte Verschiebung über die drei Raumdimensionen.
  • Der abschließende Satz, 101-127-217, bestimmt den Rotationsgrad des Funktionsarmsegments des Roboters.

Eine solche Konfiguration aktiviert den Roboter seinen Zustand über sechs Freiheitsgrade hinweg zu ändern. Eine Parallele ziehen, genauso Sprachmodelle Um allgemeine Ideen und Konzepte aus riesigen Textdaten im Internet zu assimilieren, extrahiert das RT-2-Modell Wissen aus webbasierten Informationen, um Roboteraktionen zu steuern.

Die möglichen Auswirkungen hiervon sind erheblich. Wenn ein Modell einem kuratierten Satz von Trajektorien ausgesetzt wird, die im Wesentlichen darauf hinweisen, „um ein bestimmtes Ergebnis zu erzielen, muss sich der Greifmechanismus des Roboters auf eine bestimmte Weise bewegen“, dann liegt es nahe, dass der Transformator kohärente Aktionen im Einklang damit generieren könnte diese Eingabe.

Ein entscheidender Aspekt der Bewertung war die Fähigkeit dazu Führen Sie neuartige Aufgaben aus, die in der Schulung nicht behandelt werden. Dies kann auf verschiedene Arten getestet werden:

1) Unbekannte Objekte: Kann das Modell eine Aufgabe replizieren, wenn es an Objekte herangeführt wird, an denen es nicht trainiert wurde? Der Erfolg in diesem Aspekt hängt von der Umwandlung des visuellen Feeds von der Kamera in einen Vektor ab, den das Sprachmodell interpretieren kann. Das Modell sollte dann in der Lage sein, seine Bedeutung zu erkennen, einen Begriff mit seinem Gegenstück in der realen Welt zu verknüpfen und anschließend den Roboterarm anzuleiten, entsprechend zu handeln.

2) Verschiedene Hintergründe: Wie reagiert das Modell, wenn der Großteil des visuellen Feeds aus neuen Elementen besteht, weil der Hintergrund des Aufgabenortes völlig verändert wurde? Zum Beispiel eine Änderung der Tische oder sogar eine Änderung der Lichtverhältnisse.

3) Abwechslungsreiche Umgebungen: Um den vorherigen Punkt zu erweitern: Was ist, wenn der gesamte Standort selbst anders ist?

Für den Menschen scheinen diese Szenarien einfach zu sein – wenn jemand eine Dose in seinem Zimmer wegwerfen kann, sollte er das natürlich auch im Freien tun können, oder? (Nebenbei bemerkt, ich habe einige Menschen in Parks beobachtet, die mit dieser scheinbar einfachen Aufgabe zu kämpfen hatten). Für Maschinen sind dies jedoch Herausforderungen, die noch bewältigt werden müssen.

Grafische Daten zeigen, dass das RT-2-Modell einige seiner Vorgänger übertrifft, wenn es darum geht, sich an diese neuen Bedingungen anzupassen. Diese Überlegenheit ist größtenteils auf die Nutzung eines umfangreichen Sprachmodells zurückzuführen, das durch die Fülle an Texten bereichert wird, die es während seiner Trainingsphase verarbeitet hat.

Eine von den Forschern hervorgehobene Einschränkung ist die Unfähigkeit des Modells, sich an völlig neue Fähigkeiten anzupassen. Beispielsweise würde es das Anheben eines Gegenstands von der linken oder rechten Seite nicht begreifen, wenn dies nicht Teil seiner Schulung gewesen wäre. Im Gegensatz dazu mögen Sprachmodelle ChatGPT haben diese Hürde ziemlich mühelos gemeistert. Durch die Verarbeitung riesiger Datenmengen bei einer Vielzahl von Aufgaben können diese Modelle neue Anfragen schnell entschlüsseln und darauf reagieren, selbst wenn sie ihnen noch nie zuvor begegnet sind.

Traditionell arbeiteten Roboter mit Kombinationen komplizierter Systeme. In diesen Konfigurationen interagierten übergeordnete Argumentationssysteme und grundlegende Manipulationssysteme häufig ohne effiziente Kommunikation. vergleichbar mit dem Spielen eines Spiels von „kaputtes Telefon“. Stellen Sie sich vor, Sie konzipieren mental eine Aktion und müssen diese dann zur Ausführung an Ihren Körper weiterleiten. Das neu eingeführte RT-2-Modell rationalisiert diesen Prozess. Es ermöglicht einem einsprachigen Modell, anspruchsvolle Überlegungen anzustellen und gleichzeitig direkte Befehle an den Roboter zu senden. Es zeigt, dass der Roboter mit minimalen Trainingsdaten Aktivitäten ausführen kann, die er nicht explizit gelernt hat.

Um beispielsweise ältere Systeme in die Lage zu versetzen, Abfälle zu entsorgen, waren spezielle Schulungen zum Erkennen, Aufnehmen und Entsorgen von Abfällen erforderlich. Im Gegensatz dazu verfügt der RT-2 bereits über ein grundlegendes Verständnis für Abfälle, kann diese ohne gezielte Schulung erkennen und auch ohne vorherige Einweisung in die Handlung entsorgen. Betrachten Sie die differenzierte Frage: „Was ist Abfall?“ Es ist schwierig, dieses Konzept zu formalisieren. Eine Chipstüte oder eine Bananenschale verwandelt sich nach dem Verzehr von einem Gegenstand in einen Abfall. Solche Feinheiten bedürfen keiner expliziten Erklärung oder gesonderten Schulung; RT-2 entschlüsselt sie mithilfe seines inhärenten Verständnisses und handelt entsprechend.

Hier erfahren Sie, warum dieser Fortschritt von entscheidender Bedeutung ist und welche Auswirkungen er auf die Zukunft hat:

  • Sprachmodelle wie RT-2 fungieren als allumfassende kognitive Motoren. Ihre Fähigkeit, Wissen über Domänen hinweg zu verallgemeinern und zu übertragen, bedeutet, dass sie an verschiedene Anwendungen angepasst werden können.
  • Die Forscher verwendeten für ihre Studie bewusst nicht die fortschrittlichsten Modelle, sondern wollten sicherstellen, dass jedes Modell innerhalb einer Sekunde reagierte (was einer Roboteraktionsfrequenz von mindestens 1 Hertz entspricht). Hypothetisch gesehen, die Integration eines Modells wie GPT-4 und einem überlegenes visuelles Modell könnte zu noch überzeugenderen Ergebnissen führen.
  • Umfassende Daten sind noch spärlich. Der Übergang vom aktuellen Stand zu einem ganzheitlichen Datensatz, der von Fabrikproduktionslinien bis hin zu Hausarbeiten reicht, wird jedoch voraussichtlich etwa ein bis zwei Jahre dauern. Dies ist eine vorläufige Schätzung, sodass Experten auf diesem Gebiet möglicherweise genauere Angaben machen können. Dieser Datenzustrom wird unweigerlich zu erheblichen Fortschritten führen.
  • Während der RT-2 mit einer bestimmten Technik entwickelt wurde, gibt es zahlreiche andere Methoden. Die Zukunft wird wahrscheinlich noch eine weitere Verschmelzung dieser Methoden bereithalten Verbesserung der Roboterfähigkeiten. Ein möglicher Ansatz könnte darin bestehen, Roboter mithilfe von Videos menschlicher Aktivitäten zu trainieren. Es besteht kein Bedarf an exklusiven Aufnahmen – Plattformen wie TikTok und YouTube bieten eine riesige Sammlung solcher Inhalte.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Die Kryptobörse OKX listet Notcoin auf und wird am 16. Mai den Spothandel mit dem NOT-USDT-Paar einführen
Märkte Nachrichtenbericht Technologie
Die Kryptobörse OKX listet Notcoin auf und wird am 16. Mai den Spothandel mit dem NOT-USDT-Paar einführen  
10. Mai 2024
Blast startet drittes Blast-Gold-Verteilungsevent und vergibt 15 Millionen Punkte an DApps
Märkte Nachrichtenbericht Technologie
Blast startet drittes Blast-Gold-Verteilungsevent und vergibt 15 Millionen Punkte an DApps
10. Mai 2024
Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln
Geschäft Nachrichtenbericht Technologie
Espresso Systems arbeitet mit Polygon Labs zusammen, um AggLayer zur Verbesserung der Rollup-Interoperabilität zu entwickeln
9. Mai 2024
ZKP-gestütztes Infrastrukturprotokoll ZKBase stellt Roadmap vor und plant Testnet-Start im Mai
Nachrichtenbericht Technologie
ZKP-gestütztes Infrastrukturprotokoll ZKBase stellt Roadmap vor und plant Testnet-Start im Mai
9. Mai 2024