Η Meta AI αναπτύσσει έναν αλγόριθμο που επιτρέπει στα ρομπότ να μαθαίνουν εργασίες από βίντεο YouTube
Εν συντομία
Οι ερευνητές ανέπτυξαν ένα μοντέλο οπτικής απόδοσης χρησιμοποιώντας βίντεο στο διαδίκτυο με ανθρώπινη συμπεριφορά για να εκπαιδεύσουν ρομπότ να εκτελούν πολύπλοκες εργασίες.
Αυτή η προσέγγιση γεφυρώνει το χάσμα μεταξύ των στατικών συνόλων δεδομένων και των εφαρμογών ρομπότ πραγματικού κόσμου.
Οι ερευνητές χρησιμοποιούν μεγάλης κλίμακας σύνολα δεδομένων ανθρώπινων βίντεο όπως το Ego4D και το Epic Kitchens για να εξαγάγουν οικονομικά στοιχεία, ενσωματώνοντας τεχνικές όρασης υπολογιστή με ρομποτικό χειρισμό.
Η ιδέα Vision-Robotics Bridge (VRB) παρουσιάζει τις δυνατότητες αυτής της προσέγγισης, επιτρέποντας στα ρομπότ να μαθαίνουν από ανθρώπινα βίντεο και να αποκτούν τις απαραίτητες δεξιότητες για πολύπλοκες εργασίες.
Η Meta AI αποκάλυψε έναν νέο αλγόριθμο που επιτρέπει στα ρομπότ να μαθαίνουν και να αναπαράγουν ανθρώπινες ενέργειες παρακολουθώντας βίντεο στο YouTube. Σε πρόσφατο άρθρο με τίτλο «Affordances from Human Videos ως ευέλικτη αναπαράσταση για τη ρομποτική», οι συγγραφείς διερευνούν πώς τα βίντεο ανθρώπινων αλληλεπιδράσεων μπορούν να αξιοποιηθούν για να εκπαιδεύσουν τα ρομπότ να εκτελούν πολύπλοκες εργασίες.
Αυτή η έρευνα στοχεύει να γεφυρώσει το χάσμα μεταξύ στατικών συνόλων δεδομένων και εφαρμογών ρομπότ πραγματικού κόσμου. Ενώ τα προηγούμενα μοντέλα είχαν δείξει επιτυχία σε στατικά σύνολα δεδομένων, η απευθείας εφαρμογή αυτών των μοντέλων σε ρομπότ παρέμεινε πρόκληση. Οι ερευνητές προτείνουν ότι η εκπαίδευση ενός μοντέλου οπτικής απόδοσης με χρήση βίντεο ανθρώπινης συμπεριφοράς στο διαδίκτυο θα μπορούσε να είναι μια λύση. Αυτό το μοντέλο εκτιμά πού και πώς ένας άνθρωπος είναι πιθανό να αλληλεπιδράσει σε μια σκηνή, παρέχοντας πολύτιμες πληροφορίες για τα ρομπότ.
Η έννοια των «προσφορών» είναι κεντρική σε αυτήν την προσέγγιση. Τα affordance αναφέρονται στις πιθανές ενέργειες ή αλληλεπιδράσεις που προσφέρει ένα αντικείμενο ή ένα περιβάλλον. Κατανοώντας τα οικονομικά μέσα μέσω ανθρώπινων βίντεο, το ρομπότ αποκτά μια ευέλικτη αναπαράσταση που του επιτρέπει να εκτελεί διάφορες πολύπλοκες εργασίες. Οι ερευνητές ενσωματώνουν το μοντέλο απόδοσης τους με τέσσερα διαφορετικά παραδείγματα μάθησης ρομπότ: μάθηση μίμησης εκτός σύνδεσης, εξερεύνηση, μάθηση με βάση στόχους και παραμετροποίηση δράσης για ενίσχυση μάθησης.
Για να εξαγάγουν οικονομικά στοιχεία, οι ερευνητές χρησιμοποιούν μεγάλης κλίμακας σύνολα δεδομένων ανθρώπινων βίντεο όπως Ego4D και Επικές Κουζίνες. Χρησιμοποιούν ανιχνευτές αλληλεπίδρασης χειρός-αντικειμένου εκτός ραφιού για να αναγνωρίσουν την περιοχή επαφής και να παρακολουθήσουν την τροχιά του καρπού μετά την επαφή. Ωστόσο, μια σημαντική πρόκληση προκύπτει όταν ο άνθρωπος είναι ακόμα παρών στη σκηνή, προκαλώντας μια αλλαγή διανομής. Για να το αντιμετωπίσουν αυτό, οι ερευνητές χρησιμοποιούν τις διαθέσιμες πληροφορίες κάμερας για να προβάλουν τα σημεία επαφής και την τροχιά μετά την επαφή σε ένα ανθρωπο-αγνωστικό πλαίσιο, το οποίο χρησιμεύει ως είσοδος στο μοντέλο τους.
Προηγουμένως, τα ρομπότ ήταν ικανά να μιμούνται ενέργειες, αλλά οι ικανότητές τους περιορίζονταν στην αναπαραγωγή συγκεκριμένων περιβαλλόντων. Με τον πιο πρόσφατο αλγόριθμο, οι ερευνητές έχουν σημειώσει σημαντική πρόοδο στη «γενίκευση» των ενεργειών των ρομπότ. Τα ρομπότ μπορούν πλέον να εφαρμόσουν τις γνώσεις τους σε νέα και άγνωστα περιβάλλοντα. Αυτό το επίτευγμα ευθυγραμμίζεται με το όραμα της επίτευξης Τεχνητής Γενικής Νοημοσύνης (AGI) όπως υποστήριξε ο ερευνητής AI Γιαν ΛεΚούν.
| Συνιστάται: GPT-4 Λύνει ερωτήσεις εξετάσεων MIT με 100% ακρίβεια; Δεν είναι αλήθεια, λένε οι ερευνητές |
Η Meta AI δεσμεύεται να προωθήσει το πεδίο της όρασης υπολογιστών και σχεδιάζει να μοιραστεί τον κώδικα και το σύνολο δεδομένων του έργου της. Αυτό θα επιτρέψει σε άλλους ερευνητές και προγραμματιστές να εξερευνήσουν περαιτέρω και να αξιοποιήσουν αυτήν την τεχνολογία. Με αυξημένη πρόσβαση στον κώδικα και το σύνολο δεδομένων, η ανάπτυξη ρομπότ αυτομάθησης ικανών να αποκτήσουν νέες δεξιότητες από βίντεο από το YouTube θα συνεχίσει να προοδεύει.
Αξιοποιώντας τον τεράστιο όγκο διαδικτυακών εκπαιδευτικών βίντεο, τα ρομπότ μπορούν να γίνουν πιο ευέλικτα και προσαρμόσιμα σε διάφορα περιβάλλοντα.
Διαβάστε περισσότερα για το AI:
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθρα
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.