Αναφορά ειδήσεων SMW Τεχνολογία
Ιούνιος 26, 2023

Η Meta AI αναπτύσσει έναν αλγόριθμο που επιτρέπει στα ρομπότ να μαθαίνουν εργασίες από βίντεο YouTube

Εν συντομία

Οι ερευνητές ανέπτυξαν ένα μοντέλο οπτικής απόδοσης χρησιμοποιώντας βίντεο στο διαδίκτυο με ανθρώπινη συμπεριφορά για να εκπαιδεύσουν ρομπότ να εκτελούν πολύπλοκες εργασίες.

Αυτή η προσέγγιση γεφυρώνει το χάσμα μεταξύ των στατικών συνόλων δεδομένων και των εφαρμογών ρομπότ πραγματικού κόσμου.

Οι ερευνητές χρησιμοποιούν μεγάλης κλίμακας σύνολα δεδομένων ανθρώπινων βίντεο όπως το Ego4D και το Epic Kitchens για να εξαγάγουν οικονομικά στοιχεία, ενσωματώνοντας τεχνικές όρασης υπολογιστή με ρομποτικό χειρισμό.

Η ιδέα Vision-Robotics Bridge (VRB) παρουσιάζει τις δυνατότητες αυτής της προσέγγισης, επιτρέποντας στα ρομπότ να μαθαίνουν από ανθρώπινα βίντεο και να αποκτούν τις απαραίτητες δεξιότητες για πολύπλοκες εργασίες.

Η Meta AI αποκάλυψε έναν νέο αλγόριθμο που επιτρέπει στα ρομπότ να μαθαίνουν και να αναπαράγουν ανθρώπινες ενέργειες παρακολουθώντας βίντεο στο YouTube. Σε πρόσφατο άρθρο με τίτλο «Affordances from Human Videos ως ευέλικτη αναπαράσταση για τη ρομποτική», οι συγγραφείς διερευνούν πώς τα βίντεο ανθρώπινων αλληλεπιδράσεων μπορούν να αξιοποιηθούν για να εκπαιδεύσουν τα ρομπότ να εκτελούν πολύπλοκες εργασίες.

Η Meta AI αναπτύσσει έναν αλγόριθμο που επιτρέπει στα ρομπότ να μαθαίνουν εργασίες από βίντεο YouTube
πίστωσης: Metaverse Post (mpost.io)

Αυτή η έρευνα στοχεύει να γεφυρώσει το χάσμα μεταξύ στατικών συνόλων δεδομένων και εφαρμογών ρομπότ πραγματικού κόσμου. Ενώ τα προηγούμενα μοντέλα είχαν δείξει επιτυχία σε στατικά σύνολα δεδομένων, η απευθείας εφαρμογή αυτών των μοντέλων σε ρομπότ παρέμεινε πρόκληση. Οι ερευνητές προτείνουν ότι η εκπαίδευση ενός μοντέλου οπτικής απόδοσης με χρήση βίντεο ανθρώπινης συμπεριφοράς στο διαδίκτυο θα μπορούσε να είναι μια λύση. Αυτό το μοντέλο εκτιμά πού και πώς ένας άνθρωπος είναι πιθανό να αλληλεπιδράσει σε μια σκηνή, παρέχοντας πολύτιμες πληροφορίες για τα ρομπότ.

Η έννοια των «προσφορών» είναι κεντρική σε αυτήν την προσέγγιση. Τα affordance αναφέρονται στις πιθανές ενέργειες ή αλληλεπιδράσεις που προσφέρει ένα αντικείμενο ή ένα περιβάλλον. Κατανοώντας τα οικονομικά μέσα μέσω ανθρώπινων βίντεο, το ρομπότ αποκτά μια ευέλικτη αναπαράσταση που του επιτρέπει να εκτελεί διάφορες πολύπλοκες εργασίες. Οι ερευνητές ενσωματώνουν το μοντέλο απόδοσης τους με τέσσερα διαφορετικά παραδείγματα μάθησης ρομπότ: μάθηση μίμησης εκτός σύνδεσης, εξερεύνηση, μάθηση με βάση στόχους και παραμετροποίηση δράσης για ενίσχυση μάθησης.

Συνιστάται: Κορυφαίες 100+ λέξεις που μπορούν να ανιχνευθούν από το AI Detectors το 2023

Για να εξαγάγουν οικονομικά στοιχεία, οι ερευνητές χρησιμοποιούν μεγάλης κλίμακας σύνολα δεδομένων ανθρώπινων βίντεο όπως Ego4D και Επικές Κουζίνες. Χρησιμοποιούν ανιχνευτές αλληλεπίδρασης χειρός-αντικειμένου εκτός ραφιού για να αναγνωρίσουν την περιοχή επαφής και να παρακολουθήσουν την τροχιά του καρπού μετά την επαφή. Ωστόσο, μια σημαντική πρόκληση προκύπτει όταν ο άνθρωπος είναι ακόμα παρών στη σκηνή, προκαλώντας μια αλλαγή διανομής. Για να το αντιμετωπίσουν αυτό, οι ερευνητές χρησιμοποιούν τις διαθέσιμες πληροφορίες κάμερας για να προβάλουν τα σημεία επαφής και την τροχιά μετά την επαφή σε ένα ανθρωπο-αγνωστικό πλαίσιο, το οποίο χρησιμεύει ως είσοδος στο μοντέλο τους.

Προηγουμένως, τα ρομπότ ήταν ικανά να μιμούνται ενέργειες, αλλά οι ικανότητές τους περιορίζονταν στην αναπαραγωγή συγκεκριμένων περιβαλλόντων. Με τον πιο πρόσφατο αλγόριθμο, οι ερευνητές έχουν σημειώσει σημαντική πρόοδο στη «γενίκευση» των ενεργειών των ρομπότ. Τα ρομπότ μπορούν πλέον να εφαρμόσουν τις γνώσεις τους σε νέα και άγνωστα περιβάλλοντα. Αυτό το επίτευγμα ευθυγραμμίζεται με το όραμα της επίτευξης Τεχνητής Γενικής Νοημοσύνης (AGI) όπως υποστήριξε ο ερευνητής AI Γιαν ΛεΚούν.

Συνιστάται: GPT-4 Λύνει ερωτήσεις εξετάσεων MIT με 100% ακρίβεια; Δεν είναι αλήθεια, λένε οι ερευνητές
Το μοντέλο παίρνει το ανθρωπο-αγνωστικό πλαίσιο ως είσοδο και παράγει δύο βασικές εξόδους
Το μοντέλο παίρνει το ανθρωπο-αγνωστικό πλαίσιο ως είσοδο και παράγει δύο βασικές εξόδους: έναν θερμικό χάρτη επαφής και σημεία διαδρομής καρπού. Ο χάρτης θερμότητας επαφής υποδεικνύει τα πιθανά σημεία επαφής, ενώ τα σημεία του καρπού προβλέπουν την τροχιά μετά την επαφή. Αυτές οι έξοδοι μπορούν να χρησιμοποιηθούν απευθείας κατά τη διάρκεια του χρόνου εξαγωγής συμπερασμάτων, αξιοποιώντας αραιές τρισδιάστατες πληροφορίες όπως το βάθος και η κινηματική ρομπότ. / Πίστωση: robo-affordances.github.io

Η Meta AI δεσμεύεται να προωθήσει το πεδίο της όρασης υπολογιστών και σχεδιάζει να μοιραστεί τον κώδικα και το σύνολο δεδομένων του έργου της. Αυτό θα επιτρέψει σε άλλους ερευνητές και προγραμματιστές να εξερευνήσουν περαιτέρω και να αξιοποιήσουν αυτήν την τεχνολογία. Με αυξημένη πρόσβαση στον κώδικα και το σύνολο δεδομένων, η ανάπτυξη ρομπότ αυτομάθησης ικανών να αποκτήσουν νέες δεξιότητες από βίντεο από το YouTube θα συνεχίσει να προοδεύει.

Το μοντέλο παίρνει το ανθρωπο-αγνωστικό πλαίσιο ως είσοδο και παράγει δύο βασικές εξόδους
Για να αξιολογήσουν την αποτελεσματικότητα της προσέγγισής τους, οι ερευνητές διεξήγαγαν πειράματα σε τέσσερα περιβάλλοντα πραγματικού κόσμου που περιελάμβαναν δέκα διαφορετικές εργασίες και δύο ρομποτικές πλατφόρμες που λειτουργούσαν στη φύση. Τα αποτελέσματα έδειξαν την απρόσκοπτη ενσωμάτωση του τεχνικές όρασης υπολογιστή με ρομποτικό χειρισμό, αναδεικνύοντας τις δυνατότητες της ιδέας Vision-Robotics Bridge (VRB). / Πίστωση: robo-affordances.github.io

Αξιοποιώντας τον τεράστιο όγκο διαδικτυακών εκπαιδευτικών βίντεο, τα ρομπότ μπορούν να γίνουν πιο ευέλικτα και προσαρμόσιμα σε διάφορα περιβάλλοντα.

Διαβάστε περισσότερα για το AI:

Αποποίηση Eυθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η ηρεμία πριν από την καταιγίδα Solana: Τι λένε τώρα τα διαγράμματα, οι φάλαινες και τα σήματα On-Chain

Η Solana έχει επιδείξει ισχυρή απόδοση, χάρη στην αυξανόμενη υιοθέτηση, το θεσμικό ενδιαφέρον και τις βασικές συνεργασίες, ενώ παράλληλα αντιμετωπίζει πιθανές...

Μάθετε περισσότερα

Κρυπτονομίσματα τον Απρίλιο του 2025: Βασικές τάσεις, μεταβολές και τι ακολουθεί

Τον Απρίλιο του 2025, ο χώρος των κρυπτονομισμάτων επικεντρώθηκε στην ενίσχυση της βασικής υποδομής, με το Ethereum να προετοιμάζεται για το Pectra...

Μάθετε περισσότερα
Περισσότερα
Διαβάστε περισσότερα
Η Tether ανακοινώνει στρατηγική επένδυση στο δίκτυο t-0 για την προώθηση της υποδομής πληρωμών που υποστηρίζεται από USD₮
Αναφορά ειδήσεων Τεχνολογία
Η Tether ανακοινώνει στρατηγική επένδυση στο δίκτυο t-0 για την προώθηση της υποδομής πληρωμών που υποστηρίζεται από USD₮
Φεβρουάριος 6, 2026
Η κάρτα BitMart επεκτείνει την παγκόσμια εμβέλειά της σε περισσότερες από 115 χώρες, αποκαλύπτει τα οφέλη του 2026 με επιστροφή μετρητών έως και 5.5% και ετήσιες ανταμοιβές άνω των 300$
Αναφορά ειδήσεων
Η κάρτα BitMart επεκτείνει την παγκόσμια εμβέλειά της σε περισσότερες από 115 χώρες, αποκαλύπτει τα οφέλη του 2026 με επιστροφή μετρητών έως και 5.5% και ετήσιες ανταμοιβές άνω των 300$
Φεβρουάριος 6, 2026
Η Roblox παρουσιάζει την 4D γενιά με Cube AI, επιτρέποντας στους δημιουργούς να δημιουργούν διαδραστικά αντικείμενα από μηνύματα κειμένου
Αναφορά ειδήσεων Τεχνολογία
Η Roblox παρουσιάζει την 4D γενιά με Cube AI, επιτρέποντας στους δημιουργούς να δημιουργούν διαδραστικά αντικείμενα από μηνύματα κειμένου
Φεβρουάριος 6, 2026
OpenAIΗ Frontier θα ενσωματώσει πράκτορες τεχνητής νοημοσύνης σε σύνθετες επιχειρηματικές ροές εργασίας για εταιρικές ομάδες
Αναφορά ειδήσεων Τεχνολογία
OpenAIΗ Frontier θα ενσωματώσει πράκτορες τεχνητής νοημοσύνης σε σύνθετες επιχειρηματικές ροές εργασίας για εταιρικές ομάδες
Φεβρουάριος 6, 2026
CRYPTOMERIA LABS PTE. Ε.Π.Ε.