Γνώμη Τεχνολογία
Αύγουστος 23, 2023

Οι ερευνητές αμφισβητούν την έννοια των «αναδυόμενων ικανοτήτων» μεγάλων γλωσσικών μοντέλων

Εν συντομία

Η αποκάλυψη του AGI προκαλεί ανησυχία λόγω του φαινομένου των μεγάλων γλωσσικών μοντέλων ξαφνικά επίδειξη ικανοτήτων που δεν φαίνεται να έχουν τα μικρότερα μοντέλα.

Αυτό το φαινόμενο ονομάζεται «αναδυόμενες ικανότητες μεγάλων γλωσσικών μοντέλων».

Οι συγγραφείς του άρθρου "Είναι οι αναδυόμενες ικανότητες των μεγάλων γλωσσικών μοντέλων ένα Mirage;" υποστηρίζουν ότι το αποτέλεσμα των αναδυόμενων ικανοτήτων δεν είναι αντικατοπτρισμός, αλλά μάλλον προβλέψιμη ανάπτυξη της ικανότητας εκτέλεσης εργασιών.

Δείχνουν ότι τουλάχιστον το 92% των προβλημάτων Big Bench δεν έχουν ξαφνική ανακάλυψη για μεγάλα μοντέλα και η ποιότητα των μοντέλων τους αυξάνεται ομαλά και προβλέψιμα καθώς αυξάνεται το μέγεθος των μοντέλων.

Σε μια πρόσφατη εξέταση των πιθανών δυνατοτήτων μεγάλων γλωσσικών μοντέλων, οι ερευνητές αμφισβητούν την έννοια των «αναδυόμενων ικανοτήτων» και ρίχνουν φως σε μια πιο προβλέψιμη πτυχή της λειτουργικότητάς τους. Το άρθρο με τίτλο «Αποκαλύπτοντας τις πραγματικότητες των αναδυόμενων ικανοτήτων των μεγάλων γλωσσικών μοντέλων» φέρνει στην προσοχή την παρερμηνεία των μετρήσεων που οδήγησε στην εσφαλμένη αντίληψη ότι αυτά τα μοντέλα αποκτούν αυθόρμητα προηγμένες δεξιότητες.

Οι ερευνητές αμφισβητούν την έννοια των «αναδυόμενων ικανοτήτων» μεγάλων γλωσσικών μοντέλων
πίστωσης: Metaverse Post / Stable Diffusion

Η εννοια του "αναδυόμενες ικανότητες” στο πλαίσιο μεγάλων γλωσσικών μοντέλων, όπως η GPT σειρά, έχει τροφοδοτήσει ανησυχίες σχετικά με τη δυνατότητα αυτών των μοντέλων να αναπτύξουν απρόβλεπτες ικανότητες παρόμοιες με την ανθρώπινη συνείδηση. Αυτό το έγγραφο βεβαιώνει ότι αυτές οι υποθέσεις έχουν βασιστεί σε μια λανθασμένη κατανόηση της πραγματικής συμπεριφοράς και των δυνατοτήτων των μοντέλων.

Το φαινόμενο που παρατηρείται συνήθως, όπου τα μεγαλύτερα μοντέλα αποκτούν φαινομενικά νέες ικανότητες όπως αφηρημένο συλλογισμό, επίλυση προβλημάτων και ακόμη και χιούμορ, έχει επινοηθεί ως οι «αναδυόμενες ικανότητες των μεγάλων γλωσσικών μοντέλων». Οι συντάκτες του άρθρου υποστηρίζουν ότι αυτές οι ικανότητες δεν είναι τόσο αυθόρμητες όσο φαίνονται, αλλά μάλλον αποτέλεσμα παραπλανητικών μετρήσεων αξιολόγησης.

Για να επεξηγήσουν την άποψή τους, οι ερευνητές εξετάζουν το έργο του «μαντέψτε το αίνιγμα», ένα πρόβλημα όπου το γλωσσικό μοντέλο απαιτείται να κατανοήσει ένα αίνιγμα φυσικής γλώσσας και να απαντήσει με τη σωστή απάντηση στη φυσική γλώσσα. Παραδοσιακά, η ποιότητα των απαντήσεων αξιολογείται χρησιμοποιώντας μια δυαδική μέτρηση: σε μια απάντηση εκχωρείται βαθμολογία 1 εάν ταιριάζει ακριβώς με τη σωστή απάντηση, και βαθμολογία 0 διαφορετικά.

Η ουσία του θέματος έγκειται στην ευαισθησία της μέτρησης στην πολυπλοκότητα της εργασίας και στον αριθμό των παραμέτρων του μοντέλου. Οι ερευνητές αποκαλύπτουν ότι αυτή η δυαδική μέτρηση οδηγεί σε α παραπλανητική αντίληψη των «αναδυόμενων ικανοτήτων». Τα μικρότερα μοντέλα παρουσιάζουν συχνά αμελητέα ακρίβεια (eps) σε αυτήν τη μέτρηση, ενώ τα μεγαλύτερα μοντέλα, ιδιαίτερα εκείνα με υψηλό αριθμό παραμέτρων, φαίνεται να επιτυγχάνουν αξιοσημείωτα επίπεδα ακρίβειας (acc > 0.5).

Το άρθρο υποστηρίζει ότι αυτή η φαινομενική αλλαγή στην ικανότητα δεν είναι ενδεικτική της αυθόρμητης απόκτησης σύνθετων δεξιοτήτων από μοντέλα. Αντίθετα, η ικανότητα των μοντέλων να κατανοούν και να δημιουργούν πιο διαφοροποιημένες αποκρίσεις πηγάζει από μια πιο σχολαστική αξιολόγηση των αποτελεσμάτων τους. Εστιάζοντας στην πιθανολογική αντιστοίχιση και στη σημασιολογική συνοχή παρά στην ακριβή αντιστοίχιση συμβολοσειρών, οι ερευνητές δείχνουν ότι η εξέλιξη των μοντέλων στην απόδοση ακολουθεί μια πιο λογική τροχιά, ανεξάρτητα από το μέγεθός τους.

Σχετικά:: Η Εξέλιξη των Chatbots από την T9-Era και GPT-1 προς την ChatGPT

Διερεύνηση της εξέλιξης της απόδοσης του μοντέλου με μεταβαλλόμενες παραμέτρους

Διερεύνηση της εξέλιξης της απόδοσης του μοντέλου με μεταβαλλόμενες παραμέτρους
πίστωσης: Metaverse Post / Stable Diffusion

Σε μια αναλυτική έρευνα, οι ερευνητές αποκαλύπτουν τη λεπτή μηχανική πίσω από τις αντιληπτές «αναδυόμενες ικανότητες» του μεγάλα γλωσσικά μοντέλα. Η μελέτη αμφισβητεί την επίδραση των υπερδιακριτών μετρήσεων στην αξιολόγηση της απόδοσης του μοντέλου και διευκρινίζει μια πιο προγνωστική κατανόηση των δυνατοτήτων τους καθώς επεκτείνονται οι παράμετροι του μοντέλου.

Η επικρατούσα έννοια των «αναδυόμενων ικανοτήτων» σε εκτεταμένα γλωσσικά μοντέλα έχει αιχμαλωτίσει τις συζητήσεις και έχει εγείρει ανησυχίες για πιθανές ανακαλύψεις. Αυτή η μελέτη επιδιώκει να ξεμπερδέψει τη μηχανική που κρύβεται πίσω από αυτό το φαινόμενο και να αποκρυπτογραφήσει εάν αυτά τα μοντέλα παρουσιάζουν πράγματι ξαφνικές, πρωτόγνωρες ικανότητες ή εάν αυτές οι αντιληπτές εξελίξεις μπορούν να αποδοθούν σε διαφορετική αιτία.

Στο επίκεντρο της μελέτης βρίσκεται μια σχολαστική αξιολόγηση των μετρήσεων που χρησιμοποιούνται για τη μέτρηση της απόδοσης του μοντέλου. Οι ερευνητές υποστηρίζουν ότι η χρήση υπερδιακριτών μετρήσεων, ιδιαίτερα της συμβατικής δυαδικής μέτρησης που καθορίζει τις ακριβείς αντιστοιχίσεις συμβολοσειρών, μπορεί να διαστρεβλώσει την ερμηνεία των μεγάλων ικανότητες γλωσσικού μοντέλου. Η μελέτη αναλύει σχολαστικά πώς η κατανομή πιθανοτήτων των απαντήσεων που δημιουργούνται από το μοντέλο εξελίσσεται ως κλίμακα παραμέτρων του μοντέλου.

Σε αντίθεση με την έννοια των «αναδυόμενων ικανοτήτων», η μελέτη αποκαλύπτει μια πιο συστηματική τάση. Καθώς το μέγεθος του μοντέλου αυξάνεται, βελτιώνεται η ικανότητά του να εκχωρεί υψηλότερες πιθανότητες σε κατάλληλες απαντήσεις και μικρότερες πιθανότητες σε λανθασμένες. Αυτό αντικατοπτρίζει μια σταθερή βελτίωση της ικανότητας του μοντέλου να επιλύει προβλήματα επιδέξια σε ένα ευρύ φάσμα μεγεθών. Ουσιαστικά, η έρευνα προτείνει ότι η διαδικασία μάθησης των μοντέλων ακολουθεί μια καλήdefiχρειάστηκε τροχιά βελτίωσης παρά ένα ξαφνικό άλμα.

Οι συγγραφείς εισάγουν μια αλλαγή παραδείγματος προτείνοντας την αντικατάσταση διακριτών μετρήσεων με συνεχείς. Αυτή η αλλαγή προσφέρει μια σαφέστερη εικόνα της εξέλιξης της απόδοσης. Μέσα από την ανάλυσή τους, οι ερευνητές διαπιστώνουν ότι περίπου το 92% των Προβλήματα μεγάλου πάγκου παρουσιάζουν ομαλή και προβλέψιμη ανάπτυξη στην ποιότητα καθώς το μέγεθος του μοντέλου διευρύνεται. Αυτό το εύρημα αμφισβητεί την ιδέα ότι τα μεγαλύτερα μοντέλα βιώνουν ξαφνικές ανακαλύψεις και αντ' αυτού υπογραμμίζει μια πιο σταδιακή και αναμενόμενη εξέλιξη.

Η μελέτη επεκτείνει τις γνώσεις της για να επικυρώσει τους ισχυρισμούς της. Αποδεικνύει ότι το ίδιο φαινόμενο «αναδυόμενης ικανότητας» μπορεί να προσομοιωθεί τεχνητά χρησιμοποιώντας συμβατικούς αυτόματο κωδικοποιητές, υποδηλώνοντας ότι η επιλογή των μετρήσεων επηρεάζει σημαντικά τα αντιληπτά αποτελέσματα. Αυτή η αποκάλυψη διευρύνει το εύρος των επιπτώσεων της μελέτης, καταδεικνύοντας τη συνάφειά της πέρα ​​από τα γλωσσικά μοντέλα και μόνο.

Οι ερευνητές τονίζουν ότι τα αποτελέσματά τους όχι defiνα αναιρέσει οπωσδήποτε τη δυνατότητα για «αναδυόμενες ικανότητες» ή συνείδηση ​​σε μεγάλα γλωσσικά μοντέλα. Ωστόσο, τα ευρήματά τους ενθαρρύνουν τους ερευνητές να προσεγγίσουν τέτοιους ισχυρισμούς με μια διαφοροποιημένη προοπτική. Αντί να προβάλλει βιαστικά και να σχηματίζει ακραία συμπεράσματα, η μελέτη υπογραμμίζει τη σημασία της σχολαστικής έρευνας και της συνολικής ανάλυσης.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Η Nexo ξεκινά το «The Hunt» για να ανταμείψει τους χρήστες με 12 εκατομμύρια δολάρια σε μάρκες NEXO για την αλληλεπίδραση με το οικοσύστημά της
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Nexo ξεκινά το «The Hunt» για να ανταμείψει τους χρήστες με 12 εκατομμύρια δολάρια σε μάρκες NEXO για την αλληλεπίδραση με το οικοσύστημά της
8 Μαΐου 2024
Το Revolut X Exchange Woos Crypto Traders με Zero Maker Fees και Advanced Analytics
αγορές λογισμικό Ιστορίες και κριτικές Τεχνολογία
Το Revolut X Exchange Woos Crypto Traders με Zero Maker Fees και Advanced Analytics
8 Μαΐου 2024
Το Lisk μεταβαίνει επίσημα στο Ethereum Layer 2 και αποκαλύπτει τον Core v4.0.6
Αναφορά ειδήσεων Τεχνολογία
Το Lisk μεταβαίνει επίσημα στο Ethereum Layer 2 και αποκαλύπτει τον Core v4.0.6
8 Μαΐου 2024
Νέα Meme Coins Μαΐου 2024: 7 επιλογές για θαυμαστές κρυπτογράφησης
Σύνοψη αγορές Τεχνολογία
Νέα Meme Coins Μαΐου 2024: 7 επιλογές για θαυμαστές κρυπτογράφησης
8 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.