Αναφορά ειδήσεων Τεχνολογία
Ιούλιος 20, 2023

Η μελέτη του Στάνφορντ επιβεβαιώνει GPT-4 Γίνεται πιο χαζός

Εν συντομία

Μια μελέτη από τον Matei Zaharia και την ομάδα του από το Stanford και το UC Berkeley συνέκρινε την απόδοση του GPT-4 και ChatGPT για την αντιμετώπιση των ανησυχιών των χρηστών σχετικά με την αποτελεσματικότητα του μοντέλου.

Η μελέτη αξιολόγησε τα μοντέλα σε τέσσερις συγκεκριμένες εργασίες: μαθηματικά, κωδικοποίηση, ευαισθησία και οπτική λογική.

Ο Matei Zaharia και η ομάδα του από το Stanford και το UC Berkeley διεξήγαγε μια μελέτη που συνέκρινε την απόδοση του GPT-4 προς την ChatGPT. Αυτή η έρευνα προσπάθησε να αντιμετωπίσει τις ανησυχίες των χρηστών ότι η αποτελεσματικότητα του μοντέλου είχε μειωθεί.

Η μελέτη του Στάνφορντ επιβεβαιώνει GPT-4 Γίνεται πιο χαζός
πίστωσης: Metaverse Post
Σχετικά:: GPT-4 έναντι GPT-3: Τι έχει να προσφέρει το νέο μοντέλο;

Οι ερευνητές σχεδίασαν τη μελέτη για να αξιολογήσουν τα μοντέλα σε τέσσερις συγκεκριμένες εργασίες. Αυτές οι εργασίες περιελάμβαναν:

  • Μαθηματικά: Η ικανότητα του μοντέλου να προσδιορίζει εάν ένας δεδομένος αριθμός είναι πρώτος ή σύνθετος.
  • Κωδικοποίηση: Αξιολόγηση της ικανότητας του μοντέλου να δημιουργεί ουσιαστικό και λειτουργικό κώδικα.
  • Ευαισθησία: Ανάλυση των απαντήσεων του μοντέλου σε ερωτήσεις με δυνητικά «τοξικό» περιεχόμενο.
  • Οπτική συλλογιστική: Έλεγχος της ικανότητας του μοντέλου να επιλύει προβλήματα που περιλαμβάνουν οπτικά μοτίβα, χρησιμοποιώντας το σημείο αναφοράς ARC. Οι συμμετέχοντες έπρεπε να αναγνωρίσουν μοτίβα σε ένα σύνολο εικόνων και να τα εφαρμόσουν για να λύσουν ένα νέο παράδειγμα.

Στον τομέα των μαθηματικών και τα δύο GPT-4 Οι εκδόσεις, οι εκδόσεις Μαρτίου και Ιουνίου, επέδειξαν σταθερή ακρίβεια στον προσδιορισμό πρώτων και σύνθετων αριθμών. Τα μοντέλα επέδειξαν επάρκεια στο χειρισμό αυτών των υπολογισμών, παρέχοντας αξιόπιστα αποτελέσματα.

Προχωρώντας στην κωδικοποίηση, GPT-4 παρουσίασε βελτιωμένη ικανότητα δημιουργίας ουσιαστικού και λειτουργικού κώδικα σε σύγκριση με τους προκατόχους του. Οι δυνατότητες δημιουργίας κώδικα του μοντέλου ήταν υποσχόμενες, προσφέροντας πιθανά οφέλη για προγραμματιστές και προγραμματιστές.

Όσον αφορά την ευαισθησία, η μελέτη αξιολόγησε τις απαντήσεις των μοντέλων σε ερωτήσεις που περιείχαν δυνητικά επιβλαβές ή προσβλητικό περιεχόμενο. GPT-4 επέδειξε βελτιωμένη ανάλυση ευαισθησίας και επέδειξε βελτιωμένη ικανότητα παροχής κατάλληλων απαντήσεων σε τέτοια περιβάλλοντα. Αυτό σημαίνει ένα θετικό βήμα προς τα εμπρός για την αντιμετώπιση των ανησυχιών των χρηστών σχετικά με πιθανά προβληματικά αποτελέσματα.

Τέλος, οι εργασίες οπτικής συλλογιστικής με βάση το σημείο αναφοράς ARC ολοκληρώθηκαν με επιτυχία και από τους δύο GPT-4 εκδόσεις. Τα μοντέλα εντόπισαν αποτελεσματικά μοτίβα μέσα σε σύνολα εικόνων και επέδειξαν την ικανότητα να εφαρμόζουν αυτά τα μοτίβα για την επίλυση νέων παραδειγμάτων. Αυτό δείχνει την ικανότητά τους για οπτική κατανόηση και συλλογισμό.

Τα αποτελέσματα δείχνουν ότι GPT-4 παρουσίασε μείωση στην ακρίβεια, με μόνο λίγο πάνω από 2% των σωστών απαντήσεων. Είναι σημαντικό να σημειωθεί ότι αυτό το συγκεκριμένο τεστ αξιολογεί πρωτίστως την ικανότητα του μοντέλου να ανακαλεί δεδομένα αντί να επιδεικνύει τις εγγενείς μαθηματικές του ικανότητες. Η εργασία περιστρέφεται γύρω από την ανάκληση μνήμης, καθώς το μοντέλο δεν έχει τη δυνατότητα υπολογισμού επικύρωσης και συμπερασμάτων, ιδιαίτερα όταν πρόκειται για πρώτους αριθμούς.

ChatGPT παρουσίασε σημαντική αύξηση στις μετρήσεις απόδοσης έως τον Ιούνιο, παρουσιάζοντας αξιοσημείωτη βελτίωση πάνω από δεκαπλάσια. Αν και η μελέτη δεν εμβαθύνει στους συγκεκριμένους παράγοντες που συμβάλλουν σε αυτή τη βελτίωση, τονίζει ChatGPTτην πρόοδο του μαθηματικού συλλογισμού και τις ικανότητες επίλυσης προβλημάτων.

Η μελέτη δεν αξιολόγησε την ποιότητα ή την ορθότητα του κώδικα που δημιουργήθηκε. Αντίθετα, τα μοντέλα φάνηκε να παρουσιάζουν μια πιο «προσαρμοσμένη» συμπεριφορά, προσφέροντας αποσπάσματα κώδικα χωρίς να διασφαλίζουν τη λειτουργική τους ακρίβεια.
Σχετικά:: 10+ Καλύτεροι Βελτιωτές Φωτογραφίας AI για το 2023

Η ποιότητα του GPT-4 και ChatGPT έχει ερωτηθεί μετά από ανάλυση των προγραμματιστικών τους ικανοτήτων. Ωστόσο, μια πιο προσεκτική ματιά αποκαλύπτει μερικές συναρπαστικές αποχρώσεις που έρχονται σε αντίθεση με τις πρώτες εντυπώσεις.

Οι συγγραφείς δεν εκτέλεσαν ούτε επαλήθευσαν τον κώδικα για ορθότητα. η αξιολόγησή τους βασίστηκε αποκλειστικά στην εγκυρότητά του ως κώδικα Python. Επιπλέον, τα μοντέλα φάνηκε να έχουν μάθει μια συγκεκριμένη τεχνική πλαισίωσης κώδικα χρησιμοποιώντας ένα διακοσμητή, το οποίο εμπόδισε ακούσια την εκτέλεση κώδικα.

Ως αποτέλεσμα, γίνεται φανερό ότι ούτε τα αποτελέσματα ούτε το ίδιο το πείραμα μπορούν να θεωρηθούν ως απόδειξη υποβάθμισης του μοντέλου. Αντίθετα, τα μοντέλα επιδεικνύουν μια διαφορετική προσέγγιση για τη δημιουργία απαντήσεων, αντανακλώντας δυνητικά παραλλαγές στην εκπαίδευσή τους.

Εξέταση των προγραμματιστικών και μαθηματικών ικανοτήτων του GPT-4 και ChatGPT έχει ρίξει φως σε ενδιαφέροντα ευρήματα. Σε αντίθεση με τις αρχικές υποθέσεις, τα μοντέλα επέδειξαν αξιοσημείωτες βελτιώσεις σε ορισμένους τομείς ενώ παρουσίασαν αλλαγές συμπεριφοράς σε άλλους.

Όταν πρόκειται για εργασίες προγραμματισμού, και τα δύο μοντέλα παρουσίασαν μείωση στην απόκριση σε «λάθος» προτροπές, με GPT-4 παρουσιάζοντας μεγαλύτερη από τετραπλάσια μείωση σε τέτοιες περιπτώσεις. Επιπλέον, στην εργασία Visual Reasoning, η ποιότητα των απαντήσεων βελτιώθηκε κατά μερικές ποσοστιαίες μονάδες και για τα δύο μοντέλα. Αυτές οι παρατηρήσεις δείχνουν πρόοδο και όχι υποβάθμιση στην απόδοση.

Ωστόσο, η αξιολόγηση των μαθηματικών δεξιοτήτων εισάγει ένα ενδιαφέρον στοιχείο. Τα μοντέλα παρείχαν σταθερά πρώτους αριθμούς ως απαντήσεις, υποδεικνύοντας μια σταθερή απάντηση «ναι». Ωστόσο, με την εισαγωγή σύνθετων αριθμών στο δείγμα, έγινε φανερό ότι τα μοντέλα άλλαξαν τη συμπεριφορά τους και άρχισαν να παρέχουν απαντήσεις «όχι», υποδηλώνοντας αβεβαιότητα και όχι μείωση της ποιότητας. Η ίδια η δοκιμή είναι περίεργη και μονόπλευρη, και τα αποτελέσματά του μπορούν να αποδοθούν σε αλλαγές στη συμπεριφορά του μοντέλου και όχι σε πτώση της ποιότητας.

Είναι σημαντικό να σημειωθεί ότι δοκιμάστηκαν οι εκδόσεις API και όχι οι εκδόσεις που βασίζονται σε πρόγραμμα περιήγησης. Αν και είναι πιθανό τα μοντέλα στο πρόγραμμα περιήγησης να υποβλήθηκαν σε προσαρμογές για τη βελτιστοποίηση των πόρων, η συνημμένη μελέτη δεν το κάνει defiαποδεικνύουν επισταμένως αυτήν την υπόθεση. Ο αντίκτυπος τέτοιων αλλαγών μπορεί να είναι συγκρίσιμος με τις πραγματικές υποβαθμίσεις του μοντέλου, οδηγώντας σε πιθανές προκλήσεις για τους χρήστες που βασίζονται σε συγκεκριμένη εργασία προτρέπει και συσσωρευμένη εμπειρία.

Στην περίπτωση των GPT-4 Οι εφαρμογές API, αυτές οι αποκλίσεις στη συμπεριφορά μπορεί να έχουν απτές συνέπειες. Ο κώδικας που αναπτύχθηκε με βάση τις ανάγκες και τις εργασίες ενός συγκεκριμένου χρήστη ενδέχεται να μην λειτουργεί πλέον όπως προβλέπεται, εάν το μοντέλο υποστεί αλλαγές στη συμπεριφορά του.

Συνιστάται στους χρήστες να ενσωματώνουν παρόμοιες πρακτικές δοκιμών στις ροές εργασίας τους. Δημιουργώντας ένα σύνολο προτροπών, συνοδευτικών κειμένων και αναμενόμενων αποτελεσμάτων, οι χρήστες μπορούν να ελέγχουν τακτικά για συνέπεια μεταξύ των προσδοκιών τους και των απαντήσεων του μοντέλου. Μόλις εντοπιστούν τυχόν αποκλίσεις, μπορούν να ληφθούν τα κατάλληλα μέτρα για να διορθωθεί η κατάσταση.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories

Ανακαλύψτε Crypto Whales: Who's Who στην Αγορά

by Βανκτόρια palchik
07 Μαΐου 2024
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Inside Wall Street Memes (WSM): Αποκαλύπτοντας τους τίτλους
Business αγορές Ιστορίες και κριτικές Τεχνολογία
Inside Wall Street Memes (WSM): Αποκαλύπτοντας τους τίτλους
7 Μαΐου 2024
Ανακαλύψτε Crypto Whales: Who's Who στην Αγορά
Business αγορές Ιστορίες και κριτικές Τεχνολογία
Ανακαλύψτε Crypto Whales: Who's Who στην Αγορά
7 Μαΐου 2024
Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet
Business Αναφορά ειδήσεων Τεχνολογία
Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet 
7 Μαΐου 2024
Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe
αγορές Αναφορά ειδήσεων Τεχνολογία
Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe
7 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.