Meta AI entwickelt einen Algorithmus, der es Robotern ermöglicht, Aufgaben aus YouTube-Videos zu lernen
In Kürze
Forscher haben ein visuelles Affordance-Modell entwickelt, das Internetvideos menschlichen Verhaltens nutzt, um Roboter für die Ausführung komplexer Aufgaben zu trainieren.
Dieser Ansatz schließt die Lücke zwischen statischen Datensätzen und realen Roboteranwendungen.
Die Forscher nutzen umfangreiche menschliche Videodatensätze wie Ego4D und Epic Kitchens, um Angebote zu extrahieren, indem sie Computer-Vision-Techniken mit Robotermanipulation integrieren.
Das Konzept der Vision-Robotics Bridge (VRB) zeigt das Potenzial dieses Ansatzes, der es Robotern ermöglicht, aus menschlichen Videos zu lernen und sich die für komplexe Aufgaben erforderlichen Fähigkeiten anzueignen.
Meta AI stellte einen neuen Algorithmus vor, der es Robotern ermöglicht, durch das Ansehen von YouTube-Videos menschliche Handlungen zu lernen und zu reproduzieren. In einem kürzlich erschienenen Artikel mit dem Titel „Vorteile menschlicher Videos als vielseitige Darstellung für die Robotik„Die Autoren untersuchen, wie Videos menschlicher Interaktionen genutzt werden können, um Roboter für die Ausführung komplexer Aufgaben zu trainieren.
Ziel dieser Forschung ist es, die Lücke zwischen statischen Datensätzen und realen Roboteranwendungen zu schließen. Während frühere Modelle bei statischen Datensätzen Erfolg zeigten, blieb die direkte Anwendung dieser Modelle auf Roboter eine Herausforderung. Die Forscher schlagen vor, dass das Trainieren eines visuellen Affordance-Modells mithilfe von Internetvideos menschlichen Verhaltens eine Lösung sein könnte. Dieses Modell schätzt, wo und wie ein Mensch in einer Szene wahrscheinlich interagieren wird, und liefert wertvolle Informationen für Roboter.
Das Konzept der „Affordanzen“ ist für diesen Ansatz von zentraler Bedeutung. Leistungen beziehen sich auf die potenziellen Aktionen oder Interaktionen, die ein Objekt oder eine Umgebung bietet. Durch das Verständnis von Angeboten anhand menschlicher Videos erhält der Roboter eine vielseitige Darstellung, die es ihm ermöglicht, verschiedene komplexe Aufgaben auszuführen. Die Forscher integrieren ihr Affordance-Modell mit vier verschiedenen Roboter-Lernparadigmen: Offline-Imitationslernen, Erkundung, zielkonditioniertes Lernen und Aktionsparametrisierung für Verstärkung lernen.
Um Angebote zu extrahieren, nutzen die Forscher umfangreiche menschliche Videodatensätze wie Ego4D mit einem Epische Küchen. Sie verwenden handelsübliche Hand-Objekt-Interaktionsdetektoren, um den Kontaktbereich zu identifizieren und die Bewegungsbahn des Handgelenks nach dem Kontakt zu verfolgen. Eine große Herausforderung entsteht jedoch, wenn der Mensch noch in der Szene präsent ist, was zu einer Verteilungsverschiebung führt. Um dieses Problem anzugehen, nutzen die Forscher verfügbare Kamerainformationen, um die Kontaktpunkte und die Flugbahn nach dem Kontakt auf einen menschenunabhängigen Rahmen zu projizieren, der als Eingabe für ihr Modell dient.
Früher waren Roboter in der Lage, Aktionen nachzuahmen, ihre Fähigkeiten beschränkten sich jedoch auf die Nachbildung bestimmter Umgebungen. Mit dem neuesten Algorithmus haben Forscher erhebliche Fortschritte bei der „Verallgemeinerung“ von Roboteraktionen gemacht. Roboter können ihr erworbenes Wissen nun in neuen und unbekannten Umgebungen anwenden. Dieser Erfolg steht im Einklang mit der Vision, künstliche allgemeine Intelligenz zu erreichen (AGI), wie von KI-Forschern befürwortet Jan LeCun.
Meta AI engagiert sich für die Weiterentwicklung des Bereichs Computer Vision und plant, den Code und Datensatz seines Projekts zu teilen. Dies wird es anderen Forschern und Entwicklern ermöglichen, diese Technologie weiter zu erforschen und darauf aufzubauen. Durch den verbesserten Zugriff auf den Code und den Datensatz wird die Entwicklung selbstlernender Roboter ermöglicht, die in der Lage sind, neue Fähigkeiten zu erwerben YouTube-Videos wird weiter voranschreiten.
Durch die Nutzung der großen Menge an Online-Lehrvideos können Roboter in verschiedenen Umgebungen vielseitiger und anpassungsfähiger werden.
Lesen Sie mehr über KI:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere Artikel
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.