15 Μαΐου 2023

Προγράμματα LLM: Το νέο μονοπάτι για τη βελτίωση των νευρωνικών μοντέλων σε περίπλοκες καταστάσεις

Δημοσιεύθηκε: 15 Μαΐου 2023 στις 3:42 π.μ. Ενημερώθηκε: 15 Μαΐου 2023 στις 3:42 π.μ.

Επεξεργασία και έλεγχος στοιχείων: 15 Μαΐου 2023 στις 3:42 π.μ

Εν συντομία

Οι συγγραφείς προτείνουν ένα εναλλακτικό μονοπάτι που ονομάζεται Προγράμματα LLM, το οποίο μπορεί να θεωρηθεί ως η ανάπτυξη της μάθησης εντός του πλαισίου.

Το κλειδί για την επίλυση ενός προβλήματος μέσω του Προγράμματος LLM είναι η ικανότητα αποσύνθεσης της λύσης ενός προβλήματος σε μια ακολουθία απλούστερων βημάτων.

Υπάρχουν δύο κύριοι τομείς προσαρμογής LLM: τελειοποίηση (ή πρόσθετη εκπαίδευση) του προεκπαιδευμένου βασικού μοντέλου και εκμάθηση εντός του πλαισίου. Η τελειοποίηση απαιτεί σημαντικούς υπολογιστικούς πόρους, συλλογή δεδομένων και υποδομή για να γίνει αυτό και στη συνέχεια να φιλοξενήσει βελτιωμένα μοντέλα. Εν τω μεταξύ, η μάθηση εντός πλαισίου περιλαμβάνει τη σύνταξη της σωστής προτροπής με παραδείγματα επίλυσης του προβλήματος, όπως το Chain-of-Thought (CoT). Ωστόσο, υπάρχουν ορισμένες δυσκολίες, όπως το περιορισμένο μέγεθος του κειμένου που μπορεί να υποβληθεί στο μοντέλο και το γεγονός ότι σε μια σύνθετη προτροπή πολλαπλών περασμάτων, τα βήματα μπορεί να παρεμβαίνουν μεταξύ τους και το μοντέλο μπορεί να αποσπαστεί από κάτι που δεν πρέπει να αποσπάται η προσοχή αυτή τη στιγμή. Οι συγγραφείς προτείνουν μια εναλλακτική διαδρομή που ονομάζεται Προγράμματα LLM, που μπορεί να θεωρηθεί ως η ανάπτυξη της μάθησης εντός πλαισίου.

Προγράμματα LLM: Το νέο μονοπάτι για τη βελτίωση των νευρωνικών μοντέλων σε περίπλοκες καταστάσεις

Συνιστάται: Prompt Engineering Ultimate Guide 2023

Το LLM είναι ενσωματωμένο στο πρόγραμμα (σε συμβατικό γλώσσα προγραμματισμού, για παράδειγμα, στην Python). Αυτός ο εξωτερικός κωδικός είναι υπεύθυνος για την αποθήκευση της κατάστασης και τη διατήρηση του μοντέλου βήμα προς βήμα. Έχει μερικά σημαντικά πλεονεκτήματα: Οι γλώσσες προγραμματισμού είναι προσαρμοσμένες για αυτό, το μέγεθος του διαθέσιμου πλαισίου μεγαλώνει και τα βήματα δεν παρεμβαίνουν μεταξύ τους. Το κλειδί για την επίλυση ενός προβλήματος μέσω του Προγράμματος LLM είναι η ικανότητα αποσύνθεσης της λύσης ενός προβλήματος σε μια ακολουθία απλούστερων βημάτων. Αυτή η προσέγγιση διαφέρει από προηγούμενες εργασίες, όπου το μοντέλο χρησιμοποιούσε εξωτερικά εργαλεία όπως αριθμομηχανές ή διερμηνείς κώδικα για τη διατήρηση του κράτους. Αυτή η προσέγγιση είναι καλή επειδή είναι δυνατό να περιγραφεί μια πολύπλοκη και διαδεδομένη εργασία με αυτόν τον τρόπο, καθιστώντας ευκολότερη τη δοκιμή, τον εντοπισμό σφαλμάτων και την αξιολόγηση της ποιότητας.

Επιπλέον, δεν υπάρχει παρεμβολή μεταξύ των βημάτων, καθιστώντας ευκολότερη την εργασία με το LLM. Τα συστήματα ερωτήσεων και απαντήσεων δεν είναι ούτε καινούργια. έχουν υπάρξει πολύ πριν από τα LLM. Πώς λύνεται τώρα το έργο της απάντησης σε ερωτήσεις;

Οι ιστότοποι ενημερώνονται συχνά, επομένως α παγωμένο μοντέλο δεν είναι επιλογή. θα γίνει γρήγορα ξεπερασμένο και δεν θα μπορεί να απαντήσει σε ερωτήσεις σχετικά με νέα προϊόντα. Η συνεχής επανεκπαίδευση του μοντέλου για κάθε ενημέρωση δεν είναι ρεαλιστική επιλογή: Είναι δαπανηρή και χρονοβόρα. Αντίθετα, οι σελίδες ενός ιστότοπου είναι συνήθως ευρετηριασμένες, τοποθετούνται σε κάποιο είδος βάσης δεδομένων και συχνά διανυσματικά. Κατόπιν αιτήματος ενός χρήστη, τα σχετικά έγγραφα ανασύρονται και αποστέλλονται ως πλαίσιο στο LLM.

Σε ένα τέτοιο παράδειγμα, το πρόβλημα επιλύεται φυσικά μέσω του Προγράμματος LLM. Ως μπόνους, αυτό καθίσταται δυνατή να εφαρμόσει πιο περίπλοκη λογική πολλαπλών περασμάτων που δεν θα ταίριαζε πλήρως στο πλαίσιο.

Δοκιμασμένο στο Δεδομένα StrategyQA που περιέχουν προβλήματα δυαδικής ταξινόμησης, η επίλυση των οποίων περιλαμβάνει συλλογισμό πολλαπλών κατευθύνσεων. Όπως "Διεισδύει το φως του ήλιου στο βαθύτερο μέρος της Μαύρης Θάλασσας;". Για να απαντήσετε, πρέπει να βρείτε το μέγιστο βάθος (2 km) και πόσο βαθιά το φως διεισδύει στο νερό (1 km) και στη συνέχεια να βγάλετε ένα συμπέρασμα. Ας ρίξουμε μια ματιά σε ένα άλλο παράδειγμα ερώτησης: «Χρησιμοποιούσε φορητό υπολογιστή ο Αριστοτέλης;» Αυτή η ερώτηση δεν είναι τόσο απλή και δεν ακολουθεί ρητά την ακολουθία των συλλογιστικών βημάτων όπως "Ήταν ο Αριστοτέλης ζωντανός όταν εφευρέθηκε ο φορητός υπολογιστής;" κάνει. Το σύνολο δεδομένων εστιάζει σε ερωτήσεις όπου μια τέτοια ακολουθία είναι σιωπηρή. Υπάρχουν μόνο 2,780 ερωτήσεις στο σύνολο δεδομένων, από τις οποίες μόνο 918 έχουν παραγράφους με στοιχεία που ενισχύουν όλα τα βήματα του συλλογισμού. Στην τρέχουσα εργασία, περιορίζεται σε αυτό το υποσύνολο. Διαφορετικά, θα έπρεπε να βασιστούμε στο LLM που μαθαίνει κάποια στοιχεία κατά τη διάρκεια της προεκπαίδευσης.

Το OPT-175B LLM, από προεπιλογή, δεν είναι πολύ καλό στο να ακολουθεί τις οδηγίες. δεν χρειαζόταν να βελτιστοποιήσει τις οδηγίες ούτε τα δεδομένα συνομιλίας. Για την επίλυση του προβλήματος ερωτήσεων-απάντησης που υποστηρίζονται από στοιχεία, χωρίζεται σε στάδιο φιλτραρίσματος δεδομένων και στάδιο αναζήτησης δέντρου.

Στο στάδιο του φιλτραρίσματος, έχοντας μια ερώτηση, οι προγραμματιστές περνούν όλες τις παραγράφους και επιλέγουν τις πιο σχετικές. Για παράδειγμα, με μια προτροπή μερικών βολών, ζητήστε από το LLM να απαντήσει (ναι/όχι) εάν μια δεδομένη παράγραφος είναι σχετική με την ερώτηση που τέθηκε. Δοκιμάστηκε σε ένα υποσύνολο 300 του StrategyQA, όπου κάθε ερώτηση αντιστοιχίστηκε με μια παράγραφο, σχετική ή μη, 50/50. Το OPT-175B και το text-davinci-002 δεν έχουν α πολύ υψηλότερη ποιότητα από μια τυχαία γραμμή βάσης: έως 56%. Όσο πιο προχωρημένο 11Β Tk-Instruct δεν είναι πολύ καλύτερο στο 61.6%.

Λόγω της κακής ποιότητας αυτής της προσέγγισης, συντάχθηκε μια εναλλακτική που λαμβάνει υπόψη τη μέση αρνητική log-likelihood (NLL) της ερώτησης σε συνδυασμό με την προηγούμενη παράγραφο του κειμένου και στη συνέχεια ταξινομεί τα αποτελέσματα. Αξιολογήθηκε σε ένα σύνολο δεδομένων όπου για κάθε ερώτηση υπήρχαν 100 παράγραφοι και μόνο μία ήταν σχετική (άρα η τυχαία εικασία δίνει 1%). Πήραμε το top-1 ακρίβεια στο 79% και το top-5 στο 93%. Για αυτόν τον υπολογισμό, χρειάζεστε συνήθως πρόσβαση στο ίδιο το μοντέλο, κάτι που δεν γίνεται πάντα στο API.

Ακολουθεί το στάδιο της κατασκευής αλυσίδων εξόδου. Αυτό γίνεται μέσω αναζήτησης σε ένα δέντρο όπου η ερώτηση είναι η ρίζα και σε κάθε επίπεδο, υπάρχουν πολλές παράγραφοι με πιθανά στοιχεία που χρησιμοποιούνται ως πλαίσιο για τη δημιουργία του επόμενου βήματος. Κάθε διαδρομή μέσα από το δέντρο είναι μια πιθανή αλυσίδα εξόδου. Δεν είναι ρεαλιστικό να βγάλουμε συμπέρασμα για όλες τις πιθανές αλυσίδες, επομένως όλες οι διαθέσιμες αλυσίδες κατατάσσονται και η αλυσίδα με την υψηλότερη κατάταξη επεκτείνεται. Αυτή είναι μια τέτοια παραλλαγή της αναζήτησης δέσμης. Η διαδικασία σταματά όταν πραγματοποιείται μια απάντηση ή έχει περάσει ο μέγιστος επιτρεπόμενος αριθμός βημάτων.

Οι πιο σημαντικές λεπτομέρειες είναι οι δύο στρατηγικές κατάταξης που δοκιμάστηκαν για το βήμα αναζήτησης δέντρου. Η πρώτη στρατηγική βασίζεται στον μέσο όρο NLL ολόκληρης της αλυσίδας, ενώ η δεύτερη στρατηγική εξετάζει τη μέση διαφορά στο NLL με και χωρίς παράγραφο (P), με και χωρίς ερώτηση (Q). Στις διαθέσιμες 918 ερωτήσεις από το StrategyQA, αυτή η προσέγγιση βελτιώνει σημαντικά την ποιότητα των απαντήσεων σε σχέση με την αρχική γραμμή με το CoT (60%). Και οι δύο επιλογές αναζήτησης δίνουν περίπου το 66% (η στρατηγική με ελαφρώς υψηλότερο δέλτα). Εάν υποβληθούν χρυσά στοιχεία, η ποιότητα γίνεται γύρω στο 81%, που είναι το ανώτατο όριο για το OPT. Ο Darklang φαίνεται να πηγαίνει εκεί κάπου αλλά με λίγο διαφορετικό τρόπο.

Το άρθρο βασίζεται στο Telegram θέση.

Διαβάστε περισσότερα για το AI:

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ

Hot Stories

Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Τελευταία νέα

Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών

by Άλισα Ντέιβιντσον

03 Μαΐου 2024

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα