Nachrichtenbericht SMW Technologie
26. Juni 2023

Meta AI entwickelt einen Algorithmus, der es Robotern ermöglicht, Aufgaben aus YouTube-Videos zu lernen

In Kürze

Forscher haben ein visuelles Affordance-Modell entwickelt, das Internetvideos menschlichen Verhaltens nutzt, um Roboter für die Ausführung komplexer Aufgaben zu trainieren.

Dieser Ansatz schließt die Lücke zwischen statischen Datensätzen und realen Roboteranwendungen.

Die Forscher nutzen umfangreiche menschliche Videodatensätze wie Ego4D und Epic Kitchens, um Angebote zu extrahieren, indem sie Computer-Vision-Techniken mit Robotermanipulation integrieren.

Das Konzept der Vision-Robotics Bridge (VRB) zeigt das Potenzial dieses Ansatzes, der es Robotern ermöglicht, aus menschlichen Videos zu lernen und sich die für komplexe Aufgaben erforderlichen Fähigkeiten anzueignen.

Meta AI stellte einen neuen Algorithmus vor, der es Robotern ermöglicht, durch das Ansehen von YouTube-Videos menschliche Handlungen zu lernen und zu reproduzieren. In einem kürzlich erschienenen Artikel mit dem Titel „Vorteile menschlicher Videos als vielseitige Darstellung für die Robotik„Die Autoren untersuchen, wie Videos menschlicher Interaktionen genutzt werden können, um Roboter für die Ausführung komplexer Aufgaben zu trainieren.

Meta AI entwickelt einen Algorithmus, der es Robotern ermöglicht, Aufgaben aus YouTube-Videos zu lernen
Kredit: Metaverse Post (mpost.io)

Ziel dieser Forschung ist es, die Lücke zwischen statischen Datensätzen und realen Roboteranwendungen zu schließen. Während frühere Modelle bei statischen Datensätzen Erfolg zeigten, blieb die direkte Anwendung dieser Modelle auf Roboter eine Herausforderung. Die Forscher schlagen vor, dass das Trainieren eines visuellen Affordance-Modells mithilfe von Internetvideos menschlichen Verhaltens eine Lösung sein könnte. Dieses Modell schätzt, wo und wie ein Mensch in einer Szene wahrscheinlich interagieren wird, und liefert wertvolle Informationen für Roboter.

Das Konzept der „Affordanzen“ ist für diesen Ansatz von zentraler Bedeutung. Leistungen beziehen sich auf die potenziellen Aktionen oder Interaktionen, die ein Objekt oder eine Umgebung bietet. Durch das Verständnis von Angeboten anhand menschlicher Videos erhält der Roboter eine vielseitige Darstellung, die es ihm ermöglicht, verschiedene komplexe Aufgaben auszuführen. Die Forscher integrieren ihr Affordance-Modell mit vier verschiedenen Roboter-Lernparadigmen: Offline-Imitationslernen, Erkundung, zielkonditioniertes Lernen und Aktionsparametrisierung für Verstärkung lernen.

Empfohlen: Die über 100 von KI-Detektoren erkennbaren Wörter im Jahr 2023

Um Angebote zu extrahieren, nutzen die Forscher umfangreiche menschliche Videodatensätze wie Ego4D mit einem Epische Küchen. Sie verwenden handelsübliche Hand-Objekt-Interaktionsdetektoren, um den Kontaktbereich zu identifizieren und die Bewegungsbahn des Handgelenks nach dem Kontakt zu verfolgen. Eine große Herausforderung entsteht jedoch, wenn der Mensch noch in der Szene präsent ist, was zu einer Verteilungsverschiebung führt. Um dieses Problem anzugehen, nutzen die Forscher verfügbare Kamerainformationen, um die Kontaktpunkte und die Flugbahn nach dem Kontakt auf einen menschenunabhängigen Rahmen zu projizieren, der als Eingabe für ihr Modell dient.

Früher waren Roboter in der Lage, Aktionen nachzuahmen, ihre Fähigkeiten beschränkten sich jedoch auf die Nachbildung bestimmter Umgebungen. Mit dem neuesten Algorithmus haben Forscher erhebliche Fortschritte bei der „Verallgemeinerung“ von Roboteraktionen gemacht. Roboter können ihr erworbenes Wissen nun in neuen und unbekannten Umgebungen anwenden. Dieser Erfolg steht im Einklang mit der Vision, künstliche allgemeine Intelligenz zu erreichen (AGI), wie von KI-Forschern befürwortet Jan LeCun.

Empfohlen: GPT-4 Löst MIT-Prüfungsfragen mit 100 %iger Genauigkeit? Stimmt nicht, sagen Forscher
Das Modell verwendet den menschenunabhängigen Rahmen als Eingabe und erzeugt zwei Schlüsselausgaben
Das Modell verwendet den menschenunabhängigen Rahmen als Eingabe und erzeugt zwei wichtige Ausgaben: eine Kontakt-Heatmap und Handgelenkswegpunkte. Die Kontakt-Heatmap zeigt die wahrscheinlichen Kontaktpunkte an, während die Handgelenk-Wegpunkte die Flugbahn nach dem Kontakt vorhersagen. Diese Ausgaben können direkt während der Inferenzzeit verwendet werden und nutzen spärliche 3D-Informationen wie Tiefe und Roboterkinematik. / Bildnachweis: robo-affordances.github.io

Meta AI engagiert sich für die Weiterentwicklung des Bereichs Computer Vision und plant, den Code und Datensatz seines Projekts zu teilen. Dies wird es anderen Forschern und Entwicklern ermöglichen, diese Technologie weiter zu erforschen und darauf aufzubauen. Durch den verbesserten Zugriff auf den Code und den Datensatz wird die Entwicklung selbstlernender Roboter ermöglicht, die in der Lage sind, neue Fähigkeiten zu erwerben YouTube-Videos wird weiter voranschreiten.

Das Modell verwendet den menschenunabhängigen Rahmen als Eingabe und erzeugt zwei Schlüsselausgaben
Um die Wirksamkeit ihres Ansatzes zu bewerten, führten die Forscher Experimente in vier realen Umgebungen mit zehn verschiedenen Aufgaben und zwei in freier Wildbahn betriebenen Roboterplattformen durch. Die Ergebnisse zeigten die nahtlose Integration von Techniken des Computersehens mit Robotermanipulation und demonstriert das Potenzial ihres Vision-Robotics Bridge (VRB)-Konzepts. / Bildnachweis: robo-affordances.github.io

Durch die Nutzung der großen Menge an Online-Lehrvideos können Roboter in verschiedenen Umgebungen vielseitiger und anpassungsfähiger werden.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories
Abonnieren Sie unseren Newsletter.
Aktuelle News

Die Ruhe vor dem Solana-Sturm: Was Charts, Wale und On-Chain-Signale jetzt sagen

Solana hat eine starke Leistung gezeigt, die auf die zunehmende Akzeptanz, das institutionelle Interesse und wichtige Partnerschaften zurückzuführen ist, während es gleichzeitig mit potenziellen ... konfrontiert ist.

Mehr Erfahren

Krypto im April 2025: Wichtige Trends, Veränderungen und was als nächstes kommt

Im April 2025 konzentrierte sich der Kryptobereich auf die Stärkung der Kerninfrastruktur, wobei sich Ethereum auf Pectra vorbereitete ...

Mehr Erfahren
MEHR LESEN
Weiterlesen
Bitcoin-Ausblick Mitte Februar: Finanzierung negativ, Spotnachfrage fehlt
Nachrichtenbericht Technologie
Bitcoin-Ausblick Mitte Februar: Finanzierung negativ, Spotnachfrage fehlt
16. Februar 2026
Qwen stellt neues Bild-Sprach-Modell vor, um die Leistung von Codierung, Schlussfolgerung und multimodaler KI zu verbessern
Nachrichtenbericht Technologie
Qwen stellt neues Bild-Sprach-Modell vor, um die Leistung von Codierung, Schlussfolgerung und multimodaler KI zu verbessern
16. Februar 2026
Onchain Perpetual Futures: Die Lücke zwischen CeFi und schließen DeFi Für institutionelle Händler
Nachrichtenbericht Technologie
Onchain Perpetual Futures: Die Lücke zwischen CeFi und schließen DeFi Für institutionelle Händler
16. Februar 2026
OpenAI: GPT-5.2 Leitet neue Formel ab und beweist sie im ersten physikalischen Durchbruch der KI
Nachrichtenbericht Technologie
OpenAI: GPT-5.2 Leitet neue Formel ab und beweist sie im ersten physikalischen Durchbruch der KI
16. Februar 2026
CRYPTOMERIA LABS PTE. GMBH.