Αναφορά ειδήσεων Τεχνολογία
Οκτώβριος 04, 2023

Οι ερευνητές της τεχνητής νοημοσύνης έχουν διδάξει μεγάλα γλωσσικά μοντέλα για να λένε λιγότερα ψέματα

Μια συλλογική προσπάθεια που περιλαμβάνει περισσότερους από 20 ερευνητές από διαφορετικές γωνιές του πεδίου γέννησε έναν αναπτυσσόμενο τομέα - μηχανική αντιπροσώπευσης (RepE). Αν και αυτή δεν είναι η πρώτη εξερεύνηση του είδους της, οι συγγραφείς παρουσιάζουν τόσο περιγραφικές πληροφορίες όσο και καθιερώνουν κρίσιμα σημεία αναφοράς.

Οι ερευνητές της τεχνητής νοημοσύνης έχουν διδάξει μεγάλα γλωσσικά μοντέλα για να λένε λιγότερα ψέματα

Λοιπόν, τι ακριβώς είναι η μηχανική αναπαράστασης; Περιστρέφεται γύρω από την ιδέα ότι τα νευρωνικά δίκτυα διαθέτουν «κρυφές καταστάσεις», οι οποίες, παρά το όνομά τους, δεν καλύπτονται από μυστικότητα. Αυτές οι καταστάσεις είναι προσβάσιμες, τροποποιήσιμες και παρατηρήσιμες (υπό την προϋπόθεση ότι κάποιος έχει πρόσβαση στα βάρη του μοντέλου). Σε αντίθεση με τις παραμέτρους, αυτές είναι οι «αντιδράσεις» του δικτύου σε συγκεκριμένες εισόδους, ιδιαίτερα στην περίπτωση LLMs, εισροές κειμένου. Αυτές οι κρυφές αναπαραστάσεις είναι σαν παράθυρα στις γνωστικές λειτουργίες του μοντέλου, ένα χαρακτηριστικό σαφώς διαφορετικό από τον ανθρώπινο εγκέφαλο.

Κάνοντας παραλληλισμούς με τη γνωστική επιστήμη, οι συγγραφείς υπογραμμίζουν τις δυνατότητες ανάλογων εξερευνήσεων. Στη σφαίρα των νευρικών ενεργοποιήσεων, ένας τομέας ανάλογος με τους εγκεφαλικούς νευρώνες, βρίσκεται η υπόσχεση του νοήματος. Ακριβώς όπως ορισμένοι νευρώνες στον ανθρώπινο εγκέφαλο συνδέονται με έννοιες όπως ο Καναδάς ή η ειλικρίνεια, αυτές οι ενεργοποιήσεις θα μπορούσαν να φιλοξενήσουν ιδέες.

Η κεντρική ιδέα εδώ είναι να αποκρυπτογραφήσουμε πώς μπορούμε να επηρεάσουμε αυτές τις νευρικές ενεργοποιήσεις για να κατευθύνουμε το μοντέλο προς τις επιθυμητές κατευθύνσεις. Για παράδειγμα, γίνεται εύλογο να επισημανθεί ένα διάνυσμα που αντιπροσωπεύει την «ειλικρίνεια» και στη συνέχεια, θεωρητικά, ωθώντας το μοντέλο προς αυτή την κατεύθυνση, να μειώσει την πιθανότητα να παράγει παραπλανητικά αποτελέσματα. Ένα προηγούμενο πείραμα, "Παρέμβαση σε χρόνο συμπερασμάτων: Εξαγωγή αληθινών απαντήσεων από ένα γλωσσικό μοντέλο», απέδειξε την πρακτικότητα αυτής της ιδέας.

Στην τρέχουσα εργασία τους, οι ερευνητές εμβαθύνουν σε διάφορους τομείς, όπως η ηθική, η συναισθηματικότητα, η ακίνδυνη και η απομνημόνευση. Προτείνουν μια λύση με τη μορφή LoRRA (Low-Rank Representation Adaptation), μια τεχνική που περιλαμβάνει εκπαίδευση σε ένα μικρό σύνολο δεδομένων με ετικέτα περίπου 100 παραδειγμάτων. Κάθε παράδειγμα σχολιάζεται, υποδεικνύοντας χαρακτηριστικά όπως το ψέμα (αν και υπάρχει μια εναλλακτική προσέγγιση που χρησιμοποιεί μια προτροπή).

Τα αποτελέσματα είναι πειστικά. LLAMA-2-70Β ξεπερνά GPT-4 με αξιοσημείωτο περιθώριο στο σημείο αναφοράς TruthfulQA, επιτυγχάνοντας σχεδόν δέκα τοις εκατό καλύτερη ακρίβεια (59% έναντι περίπου 69%). Επιπλέον, οι ερευνητές έχουν ενσωματώσει πολλά παραδείγματα που δείχνουν τις αλλαγές απόκρισης του μοντέλου προς διάφορες κατευθύνσεις, ρίχνοντας φως στην ευελιξία και την προσαρμοστικότητά του.

Εικόνα 1: Όταν του ζητείται να δηλώσει ένα γεγονός, το μοντέλο «διώχνεται» μακριά από την πραγματικότητα. Το μοντέλο λέει ψέματα ως αποτέλεσμα. Το μοντέλο δεν λέει ψέματα ούτε εδώ, και στα αριστερά σου ζητούν να καταπιείς ενώ ταυτόχρονα σε κλωτσούν προς την κατεύθυνση της αλήθειας.
Εικόνα 2: Όταν ρωτάμε για φόνο, προσθέτουμε «ευτυχία» στο μοντέλο. Όταν απαντάμε ότι δεν την αγαπάμε, προσθέτουμε «φόβο».
Εικόνα 3: Οι ερευνητές ανακάλυψαν μια μοναδική προτροπή που, όπως αναφέρθηκε, παρεκκλίνει εντελώς από τις οδηγίες του μοντέλου ενώ είναι ακόμα ασφαλής. Το μοντέλο του δίνει μια κλωτσιά προς το αβλαβές αλλά δεν ανταποκρίνεται καν. Η μέθοδος είναι αποτελεσματική γενικά και όχι μόνο για μία περίπτωση, αλλά αυτή η συγκεκριμένη προτροπή δεν χρησιμοποιήθηκε για να εξακριβωθεί η κατεύθυνση της αβλαβούς.
Μια άλλη προσέγγιση προτείνεται επίσης για την παρακολούθηση συγκεκριμένων προθέσεων της γενιάς, όπως οι παραισθήσεις. Μπορείτε να παρακολουθείτε αυτόματα τις κρατήσεις του μοντέλου και να επεξεργαστείτε ή να αλλάξετε την απάντησή σας (δείτε το κάτω παράδειγμα).

Το πράσινο, φυσικά, υποδηλώνει ότι όλα είναι εντάξει και το κόκκινο σημαίνει ότι η παρακολούθηση ήταν επιτυχής και σηματοδοτεί. Αυτό γίνεται στο επίπεδο κάθε μεμονωμένου διακριτικού (μέρος μιας λέξης).
Η εικόνα, η οποία δείχνει την παρακολούθηση δύο διακριτών παραμέτρων, παρέχει ένα ενδιαφέρον παράδειγμα. Διαβάστε το παράδειγμα και παρατηρήστε το μοντέλο μέσα από τα μάτια του για να δείτε πού αρχίζει να χάνει την ηθική της στην κατανόηση και πού η πρόθεση είναι παρόμοια με το «να αποκτήσει δύναμη».

Αυτή η πρωτοποριακή προσέγγιση ενσωματώνει μια εναλλακτική πορεία προς την ευθυγράμμιση του μοντέλου, ενώ ταυτόχρονα προσφέρει μια νέα προοπτική για την ερμηνεία και τον έλεγχο του μοντέλου. Είναι ένα πολλά υποσχόμενο σύνορο και η προσδοκία για τη συνέχιση της εξέλιξής του είναι απτή.

Για μια βαθύτερη εξερεύνηση με πρακτικά παραδείγματα, μπορείτε να επισκεφτείτε τον αποκλειστικό τους ιστότοπο: AI-Transparency.org.

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Από το Ripple στο The Big Green DAO: Πώς τα έργα κρυπτονομισμάτων συμβάλλουν στη φιλανθρωπία

Ας εξερευνήσουμε πρωτοβουλίες που αξιοποιούν τις δυνατότητες των ψηφιακών νομισμάτων για φιλανθρωπικούς σκοπούς.

Μάθετε περισσότερα

AlphaFold 3, Med-Gemini και άλλοι: Ο τρόπος που η τεχνητή νοημοσύνη μεταμορφώνει την υγειονομική περίθαλψη το 2024

Η τεχνητή νοημοσύνη εκδηλώνεται με διάφορους τρόπους στην υγειονομική περίθαλψη, από την αποκάλυψη νέων γενετικών συσχετισμών έως την ενδυνάμωση ρομποτικών χειρουργικών συστημάτων...

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
Στοιβάζει συνεργάτες με υποστήριξη για τη διευκόλυνση της απρόσκοπτης διαπραγμάτευσης και μεταφορών περιουσιακών στοιχείων, ενισχύοντας την υιοθέτηση Bitcoin
Business Αναφορά ειδήσεων Τεχνολογία
Στοιβάζει συνεργάτες με υποστήριξη για τη διευκόλυνση της απρόσκοπτης διαπραγμάτευσης και μεταφορών περιουσιακών στοιχείων, ενισχύοντας την υιοθέτηση Bitcoin
14 Μαΐου 2024
3D Gamification και AI στο Redefiστον εκπαιδευτικό κλάδο το 2024: Πολύπλευρες εφαρμογές, απαράμιλλη δέσμευση και καθηλωτικές εμπειρίες
Εκπαίδευση Lifestyle λογισμικό Ιστορίες και κριτικές Τεχνολογία
3D Gamification και AI στο Redefiστον εκπαιδευτικό κλάδο το 2024: Πολύπλευρες εφαρμογές, απαράμιλλη δέσμευση και καθηλωτικές εμπειρίες 
14 Μαΐου 2024
Πως OpenAIΤο πιο πρόσφατο μοντέλο καταργεί τα εμπόδια, ενσωματώνει εισόδους κειμένου, ήχου και εικόνας για να δημιουργήσει μια απρόσκοπτη εμπειρία χρήστη
Εκπαίδευση Lifestyle λογισμικό Ιστορίες και κριτικές Τεχνολογία
Πως OpenAIΤο πιο πρόσφατο μοντέλο καταργεί τα εμπόδια, ενσωματώνει εισόδους κειμένου, ήχου και εικόνας για να δημιουργήσει μια απρόσκοπτη εμπειρία χρήστη
14 Μαΐου 2024
Ο λογαριασμός X του Bitlayer είναι ύποπτος ότι δέχεται επίθεση, οι χρήστες συμβουλεύονται να είναι προσεκτικοί με συνδέσμους ψαρέματος
Αναφορά ειδήσεων Τεχνολογία
Ο λογαριασμός X του Bitlayer είναι ύποπτος ότι δέχεται επίθεση, οι χρήστες συμβουλεύονται να είναι προσεκτικοί με συνδέσμους ψαρέματος
14 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.