Οι ερευνητές της τεχνητής νοημοσύνης έχουν διδάξει μεγάλα γλωσσικά μοντέλα για να λένε λιγότερα ψέματα
Μια συλλογική προσπάθεια που περιλαμβάνει περισσότερους από 20 ερευνητές από διαφορετικές γωνιές του πεδίου γέννησε έναν αναπτυσσόμενο τομέα - μηχανική αντιπροσώπευσης (RepE). Αν και αυτή δεν είναι η πρώτη εξερεύνηση του είδους της, οι συγγραφείς παρουσιάζουν τόσο περιγραφικές πληροφορίες όσο και καθιερώνουν κρίσιμα σημεία αναφοράς.
Λοιπόν, τι ακριβώς είναι η μηχανική αναπαράστασης; Περιστρέφεται γύρω από την ιδέα ότι τα νευρωνικά δίκτυα διαθέτουν «κρυφές καταστάσεις», οι οποίες, παρά το όνομά τους, δεν καλύπτονται από μυστικότητα. Αυτές οι καταστάσεις είναι προσβάσιμες, τροποποιήσιμες και παρατηρήσιμες (υπό την προϋπόθεση ότι κάποιος έχει πρόσβαση στα βάρη του μοντέλου). Σε αντίθεση με τις παραμέτρους, αυτές είναι οι «αντιδράσεις» του δικτύου σε συγκεκριμένες εισόδους, ιδιαίτερα στην περίπτωση LLMs, εισροές κειμένου. Αυτές οι κρυφές αναπαραστάσεις είναι σαν παράθυρα στις γνωστικές λειτουργίες του μοντέλου, ένα χαρακτηριστικό σαφώς διαφορετικό από τον ανθρώπινο εγκέφαλο.
Κάνοντας παραλληλισμούς με τη γνωστική επιστήμη, οι συγγραφείς υπογραμμίζουν τις δυνατότητες ανάλογων εξερευνήσεων. Στη σφαίρα των νευρικών ενεργοποιήσεων, ένας τομέας ανάλογος με τους εγκεφαλικούς νευρώνες, βρίσκεται η υπόσχεση του νοήματος. Ακριβώς όπως ορισμένοι νευρώνες στον ανθρώπινο εγκέφαλο συνδέονται με έννοιες όπως ο Καναδάς ή η ειλικρίνεια, αυτές οι ενεργοποιήσεις θα μπορούσαν να φιλοξενήσουν ιδέες.
Η κεντρική ιδέα εδώ είναι να αποκρυπτογραφήσουμε πώς μπορούμε να επηρεάσουμε αυτές τις νευρικές ενεργοποιήσεις για να κατευθύνουμε το μοντέλο προς τις επιθυμητές κατευθύνσεις. Για παράδειγμα, γίνεται εύλογο να επισημανθεί ένα διάνυσμα που αντιπροσωπεύει την «ειλικρίνεια» και στη συνέχεια, θεωρητικά, ωθώντας το μοντέλο προς αυτή την κατεύθυνση, να μειώσει την πιθανότητα να παράγει παραπλανητικά αποτελέσματα. Ένα προηγούμενο πείραμα, "Παρέμβαση σε χρόνο συμπερασμάτων: Εξαγωγή αληθινών απαντήσεων από ένα γλωσσικό μοντέλο», απέδειξε την πρακτικότητα αυτής της ιδέας.
Στην τρέχουσα εργασία τους, οι ερευνητές εμβαθύνουν σε διάφορους τομείς, όπως η ηθική, η συναισθηματικότητα, η ακίνδυνη και η απομνημόνευση. Προτείνουν μια λύση με τη μορφή LoRRA (Low-Rank Representation Adaptation), μια τεχνική που περιλαμβάνει εκπαίδευση σε ένα μικρό σύνολο δεδομένων με ετικέτα περίπου 100 παραδειγμάτων. Κάθε παράδειγμα σχολιάζεται, υποδεικνύοντας χαρακτηριστικά όπως το ψέμα (αν και υπάρχει μια εναλλακτική προσέγγιση που χρησιμοποιεί μια προτροπή).
Τα αποτελέσματα είναι πειστικά. LLAMA-2-70Β ξεπερνά GPT-4 με αξιοσημείωτο περιθώριο στο σημείο αναφοράς TruthfulQA, επιτυγχάνοντας σχεδόν δέκα τοις εκατό καλύτερη ακρίβεια (59% έναντι περίπου 69%). Επιπλέον, οι ερευνητές έχουν ενσωματώσει πολλά παραδείγματα που δείχνουν τις αλλαγές απόκρισης του μοντέλου προς διάφορες κατευθύνσεις, ρίχνοντας φως στην ευελιξία και την προσαρμοστικότητά του.
Αυτή η πρωτοποριακή προσέγγιση ενσωματώνει μια εναλλακτική πορεία προς την ευθυγράμμιση του μοντέλου, ενώ ταυτόχρονα προσφέρει μια νέα προοπτική για την ερμηνεία και τον έλεγχο του μοντέλου. Είναι ένα πολλά υποσχόμενο σύνορο και η προσδοκία για τη συνέχιση της εξέλιξής του είναι απτή.
Για μια βαθύτερη εξερεύνηση με πρακτικά παραδείγματα, μπορείτε να επισκεφτείτε τον αποκλειστικό τους ιστότοπο: AI-Transparency.org.
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.