Αύγουστος 01, 2023

Is GPT-4 Σκοπεύετε να υπερφορτίσετε τη Ρομποτική; Γιατί το RT-2 αλλάζει τα πάντα

Δημοσιεύθηκε: 01 Αυγούστου 2023 στις 3:58 π.μ. Ενημερώθηκε: 01 Αυγούστου 2023 στις 3:58 π.μ.

Επεξεργασία και έλεγχος στοιχείων: 01 Αυγούστου 2023 στις 3:58 π.μ

Εν συντομία

Το Google DeepMind έχει αναπτύξει εφαρμογές μοντέλων γλώσσας όρασης για ρομποτικό έλεγχο από άκρο σε άκρο, εστιάζοντας στην ικανότητά τους να γενικεύουν και να μεταφέρουν γνώση σε τομείς.

Το μοντέλο RT-2, σχεδιασμένο να δημιουργεί ακολουθίες ικανές να κωδικοποιούν τεράστιες ποσότητες πληροφοριών, έχει δοκιμαστεί σε διάφορα σενάρια, συμπεριλαμβανομένων άγνωστων αντικειμένων, διαφορετικών υποβάθρων και ποικίλων περιβαλλόντων.

Το μοντέλο RT-2 ξεπερνά ορισμένους από τους προκατόχους του όσον αφορά την προσαρμογή στις νέες συνθήκες, σε μεγάλο βαθμό λόγω του εκτεταμένου γλωσσικού του μοντέλου.

Το Google DeepMind ερεύνησε εφαρμογές μοντέλων γλώσσας όρασης, εστιάζοντας στις δυνατότητές τους για ρομποτικό έλεγχο από άκρο σε άκρο. Αυτή η έρευνα προσπάθησε να καθορίσει εάν αυτά τα μοντέλα ήταν ικανά για ευρεία γενίκευση. Επιπλέον, διερεύνησε εάν ορισμένες γνωστικές λειτουργίες, όπως ο συλλογισμός και ο προγραμματισμός, που συχνά συνδέονται με εκτεταμένα γλωσσικά μοντέλα, θα μπορούσαν να προκύψουν σε αυτό το πλαίσιο.

Is GPT-4 Σκοπεύετε να υπερφορτίσετε τη Ρομποτική; Γιατί το RT-2 αλλάζει τα πάντα — πίστωσης: Metaverse Post / Stable Diffusion

Η θεμελιώδης αρχή πίσω από αυτήν την εξερεύνηση συνδέεται εγγενώς με τα χαρακτηριστικά των μεγάλων γλωσσικών μοντέλων (LLMs). Τέτοιος τα μοντέλα έχουν σχεδιαστεί για να δημιουργούν οποιαδήποτε αλληλουχία ικανή να κωδικοποιήσει ένα ευρύ φάσμα πληροφοριών. Αυτό περιλαμβάνει όχι μόνο κοινή γλώσσα ή κώδικα προγραμματισμού όπως η Python, αλλά και συγκεκριμένες εντολές που μπορεί να καθοδηγήσει ρομποτικές ενέργειες.

Για να το θέσουμε σε προοπτική, εξετάστε την ικανότητα του μοντέλου να κατανοεί και να μεταφράζει συγκεκριμένες ακολουθίες συμβολοσειρών σε ρομποτικές εντολές με δυνατότητα δράσης. Ενδεικτικά, μια συμβολοσειρά που δημιουργείται όπως "1 128 91 241 5 101 127 217" μπορεί να αποκωδικοποιηθεί με τον ακόλουθο τρόπο:

Το αρχικό ψηφίο, ένα, σημαίνει ότι η εργασία είναι ακόμη σε εξέλιξη και δεν έχει ολοκληρωθεί.
Η επόμενη τριάδα αριθμών, 128-91-241, υποδηλώνει μια σχετική και κανονικοποιημένη μετατόπιση στις τρεις διαστάσεις του χώρου.
Το τελικό σετ, 101-127-217, προσδιορίζει με ακρίβεια τον βαθμό περιστροφής του λειτουργικού τμήματος του βραχίονα του ρομπότ.

Μια τέτοια διαμόρφωση ενεργοποιεί το ρομπότ να τροποποιήσει την κατάστασή του σε έξι βαθμούς ελευθερίας. Σχεδιάζοντας έναν παραλληλισμό, όπως ακριβώς γλωσσικά μοντέλα αφομοιώνοντας γενικές ιδέες και έννοιες από τεράστια κειμενικά δεδομένα στο διαδίκτυο, το μοντέλο RT-2 εξάγει γνώσεις από πληροφορίες που βασίζονται στο διαδίκτυο για να καθοδηγήσει ρομποτικές ενέργειες.

Οι πιθανές συνέπειες αυτού είναι σημαντικές. Εάν ένα μοντέλο εκτεθεί σε ένα επιλεγμένο σύνολο τροχιών που ουσιαστικά υποδεικνύουν, «για να επιτευχθεί ένα συγκεκριμένο αποτέλεσμα, ο μηχανισμός λαβής του ρομπότ πρέπει να κινείται με συγκεκριμένο τρόπο», τότε είναι λογικό ότι ο μετασχηματιστής θα μπορούσε να δημιουργήσει συνεκτικές ενέργειες σύμφωνα με αυτή η είσοδος.

Μια κρίσιμη πτυχή υπό αξιολόγηση ήταν η ικανότητα να εκτελεί νέες εργασίες που δεν καλύπτονται κατά τη διάρκεια της εκπαίδευσης. Αυτό μπορεί να δοκιμαστεί με μερικούς διαφορετικούς τρόπους:

1) Άγνωστα αντικείμενα: Μπορεί το μοντέλο να αναπαράγει μια εργασία όταν εισάγεται σε αντικείμενα στα οποία δεν έχει εκπαιδευτεί; Η επιτυχία σε αυτήν την πτυχή εξαρτάται από τη μετατροπή της οπτικής τροφοδοσίας από την κάμερα σε διάνυσμα, το οποίο μπορεί να ερμηνεύσει το μοντέλο γλώσσας. Το μοντέλο θα πρέπει στη συνέχεια να είναι σε θέση να διακρίνει τη σημασία του, να συνδέσει έναν όρο με τον αντίστοιχο του πραγματικού κόσμου και στη συνέχεια να καθοδηγήσει τον ρομποτικό βραχίονα να ενεργήσει ανάλογα.

2) Διαφορετικά υπόβαθρα: Πώς ανταποκρίνεται το μοντέλο όταν η πλειονότητα της οπτικής ροής αποτελείται από νέα στοιχεία, επειδή το φόντο της τοποθεσίας της εργασίας έχει αλλάξει εντελώς; Για παράδειγμα, μια αλλαγή σε τραπέζια ή ακόμα και μια αλλαγή στις συνθήκες φωτισμού.

3) Ποικίλα Περιβάλλοντα: Επεκτείνοντας το προηγούμενο σημείο, τι γίνεται αν ολόκληρη η τοποθεσία είναι διαφορετική;

Για τους ανθρώπους, αυτά τα σενάρια φαίνονται απλά – φυσικά, αν κάποιος μπορεί να πετάξει ένα κουτί στο δωμάτιό του, θα πρέπει να μπορεί να το κάνει και σε εξωτερικούς χώρους, σωστά; (Σε μια παράπλευρη σημείωση, έχω παρατηρήσει μερικά άτομα σε πάρκα που παλεύουν με αυτό το φαινομενικά απλό έργο). Ωστόσο, για τα μηχανήματα, αυτές είναι προκλήσεις που πρέπει να αντιμετωπιστούν.

Τα γραφικά δεδομένα αποκαλύπτουν ότι το μοντέλο RT-2 ξεπερνά ορισμένους από τους προκατόχους του όσον αφορά την προσαρμογή σε αυτές τις νέες συνθήκες. Αυτή η υπεροχή πηγάζει σε μεγάλο βαθμό από την αξιοποίηση ενός εκτεταμένου γλωσσικού μοντέλου, εμπλουτισμένου από την πληθώρα των κειμένων που έχει επεξεργαστεί κατά τη φάση της εκπαίδευσής του.

Ένας περιορισμός που τονίστηκε από τους ερευνητές είναι η αδυναμία του μοντέλου να προσαρμοστεί σε εντελώς νέες δεξιότητες. Για παράδειγμα, δεν θα κατανοούσε την ανύψωση ενός αντικειμένου από την αριστερή ή τη δεξιά πλευρά του, αν αυτό δεν ήταν μέρος της εκπαίδευσής του. Αντίθετα, τα γλωσσικά μοντέλα όπως ChatGPT έχουν ξεπεράσει αυτό το εμπόδιο μάλλον αβίαστα. Επεξεργάζοντας τεράστιες ποσότητες δεδομένων σε μια μυριάδα εργασιών, αυτά τα μοντέλα μπορούν να αποκρυπτογραφήσουν γρήγορα και να ενεργήσουν μετά από νέα αιτήματα, ακόμα κι αν δεν τα έχουν συναντήσει ποτέ στο παρελθόν.

Παραδοσιακά, τα ρομπότ λειτουργούσαν χρησιμοποιώντας συνδυασμούς περίπλοκων συστημάτων. Σε αυτές τις ρυθμίσεις, συστήματα συλλογιστικής υψηλότερου επιπέδου και συστήματα βασικής χειραγώγησης συχνά αλληλεπιδρούσαν χωρίς αποτελεσματική επικοινωνία, σαν να παίζεις ένα παιχνίδι του «σπασμένου τηλεφώνου». Φανταστείτε να συλλάβετε μια ενέργεια διανοητικά και μετά να χρειαστεί να την μεταδώσετε στο σώμα σας για εκτέλεση. Το νεοεισαχθέν μοντέλο RT-2 απλοποιεί αυτή τη διαδικασία. Εξουσιοδοτεί ένα μοντέλο μεμονωμένης γλώσσας να αναλαμβάνει εξελιγμένο συλλογισμό, ενώ παράλληλα αποστέλλει άμεσες εντολές στο ρομπότ. Αποδεικνύει ότι με ελάχιστα δεδομένα εκπαίδευσης, το ρομπότ μπορεί να πραγματοποιήσει δραστηριότητες που δεν έχει μάθει ρητά.

Για παράδειγμα, για να επιτρέψουν στα παλαιότερα συστήματα να απορρίπτουν τα απόβλητα, απαιτούσαν ειδική εκπαίδευση για τον εντοπισμό, τη συλλογή και τη διάθεση των απορριμμάτων. Αντίθετα, το RT-2 έχει ήδη μια θεμελιώδη κατανόηση των απορριμμάτων, μπορεί να τα αναγνωρίσει χωρίς στοχευμένη εκπαίδευση και μπορεί να τα απορρίψει ακόμη και χωρίς προηγούμενη οδηγία για τη δράση. Σκεφτείτε το πολύχρωμο ερώτημα, "τι είναι απόβλητο;" Αυτή είναι μια προκλητική ιδέα για επισημοποίηση. Μια σακούλα με τσιπ ή μια μπανανόφλουδα μετατρέπεται από ένα είδος σε απόβλητο μετά την κατανάλωση. Τέτοιες περιπλοκές δεν χρειάζονται ρητή εξήγηση ή ξεχωριστή εκπαίδευση. Το RT-2 τα αποκρυπτογραφεί χρησιμοποιώντας την εγγενή του κατανόηση και ενεργεί ανάλογα.

Να γιατί αυτή η πρόοδος είναι ζωτικής σημασίας και οι μελλοντικές επιπτώσεις της:

Τα γλωσσικά μοντέλα, όπως το RT-2, λειτουργούν ως γνωστικές μηχανές που περικλείουν τα πάντα. Η ικανότητά τους να γενικεύουν και να μεταφέρουν γνώση σε τομείς σημαίνει ότι είναι προσαρμόσιμοι σε ποικίλες εφαρμογές.
Οι ερευνητές σκόπιμα δεν χρησιμοποίησαν τα πιο προηγμένα μοντέλα για τη μελέτη τους, με στόχο να εξασφαλίσουν ότι κάθε μοντέλο ανταποκρίνεται μέσα σε ένα δευτερόλεπτο (δηλαδή μια συχνότητα ρομποτικής δράσης τουλάχιστον 1 Hertz). Υποθετικά, ενσωματώνοντας ένα μοντέλο όπως GPT-4 και σε έναν ανώτερο οπτικό μοντέλο θα μπορούσε να αποφέρει ακόμη πιο συναρπαστικά αποτελέσματα.
Τα ολοκληρωμένα δεδομένα είναι ακόμα αραιά. Ωστόσο, η μετάβαση από την τρέχουσα κατάσταση σε ένα ολιστικό σύνολο δεδομένων, που κυμαίνεται από τις γραμμές παραγωγής εργοστασίων έως τις οικιακές εργασίες, προβλέπεται να διαρκέσει περίπου ένα έως δύο χρόνια. Αυτή είναι μια δοκιμαστική εκτίμηση, επομένως οι ειδικοί στον τομέα μπορεί να προσφέρουν μεγαλύτερη ακρίβεια. Αυτή η εισροή δεδομένων θα οδηγήσει αναπόφευκτα σε σημαντικές προόδους.
Ενώ το RT-2 αναπτύχθηκε χρησιμοποιώντας μια συγκεκριμένη τεχνική, υπάρχουν πολλές άλλες μέθοδοι. Το μέλλον πιθανότατα επιφυλάσσει μια συγχώνευση αυτών των μεθοδολογιών, περαιτέρω ενίσχυση των ρομποτικών δυνατοτήτων. Μια προοπτική προσέγγιση θα μπορούσε να περιλαμβάνει εκπαίδευση ρομπότ χρησιμοποιώντας βίντεο ανθρώπινων δραστηριοτήτων. Δεν υπάρχει ανάγκη για αποκλειστικές ηχογραφήσεις – πλατφόρμες όπως το TikTok και το YouTube προσφέρουν ένα τεράστιο αποθετήριο τέτοιου περιεχομένου.

Διαβάστε περισσότερα για το AI:

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ

Hot Stories

Το NuLink εκκινεί στο Bybit Web3 Πλατφόρμα IDO. Παρατείνεται η φάση της συνδρομής έως τις 13 Μαΐου

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Η UXLINK και η Binance συνεργάζονται σε νέα καμπάνια, προσφέροντας στους χρήστες 20 εκατομμύρια πόντους UXUY και Airdrop Ανταμοιβές

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Το Side Protocol εκκινεί το Incentivized Testnet και εισάγει το Insider Point System, επιτρέποντας στους χρήστες να κερδίζουν SIDE Points

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Web3 και Crypto Events τον Μάιο του 2024: Εξερευνώντας Νέες Τεχνολογίες και Αναδυόμενες Τάσεις στο Blockchain και DeFi

by Βανκτόρια palchik

09 Μαΐου 2024

Τελευταια νεα

Το NuLink εκκινεί στο Bybit Web3 Πλατφόρμα IDO. Παρατείνεται η φάση της συνδρομής έως τις 13 Μαΐου

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Η UXLINK και η Binance συνεργάζονται σε νέα καμπάνια, προσφέροντας στους χρήστες 20 εκατομμύρια πόντους UXUY και Airdrop Ανταμοιβές

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Το Side Protocol εκκινεί το Incentivized Testnet και εισάγει το Insider Point System, επιτρέποντας στους χρήστες να κερδίζουν SIDE Points

by Άλισα Ντέιβιντσον

09 Μαΐου 2024

Web3 και Crypto Events τον Μάιο του 2024: Εξερευνώντας Νέες Τεχνολογίες και Αναδυόμενες Τάσεις στο Blockchain και DeFi

by Βανκτόρια palchik

09 Μαΐου 2024

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα