OpenAI Ανακοινώνει το Evals, ένα πλαίσιο λογισμικού ανοιχτού κώδικα για την αξιολόγηση μοντέλων AI
Εν συντομία
OpenAI ελπίζει να συγκεντρώνει συγκεντρωτικά κριτήρια αναφοράς για την αξιολόγηση μοντέλων τεχνητής νοημοσύνης όπως GPT-4.
Η εταιρεία επεξεργασίας πληρωμών, Stripe, έχει ήδη χρησιμοποιήσει το Evals για να μετρήσει την ακρίβεια τους GPT-τροφοδοτούμενο εργαλείο τεκμηρίωσης.
OpenAI θα χορηγηθεί GPT-4 πρόσβαση για περιορισμένο χρόνο σε όσους συνεισφέρουν αξιολογήσεις υψηλής ποιότητας.
Παράλληλα με την ανακοίνωση του GPT-4, OpenAI ανακοίνωσε το πλαίσιο λογισμικού ανοιχτού κώδικα OpenAI Evals. Αυτό το εργαλείο έχει σχεδιαστεί για τη δημιουργία και εκτέλεση σημείων αναφοράς που αξιολογούν την απόδοση μοντέλων όπως GPT-4. Με τον Evals, OpenAI ελπίζει να συγκεντρωθούν συγκριτικά σημεία αναφοράς για δοκιμές μοντέλων AI.
«Χρησιμοποιούμε το Evals για να καθοδηγήσουμε την ανάπτυξη των μοντέλων μας (τόσο για τον εντοπισμό ελλείψεων όσο και για την αποφυγή παλινδρόμησης) και οι χρήστες μας μπορούν να το εφαρμόσουν για την παρακολούθηση της απόδοσης σε εκδόσεις μοντέλων (που τώρα θα κυκλοφορούν τακτικά) και τις εξελισσόμενες ενσωματώσεις προϊόντων», εξηγεί η εταιρεία στο ένα ανάρτηση.
Η Stripe, μια δημοφιλής εταιρεία επεξεργασίας πληρωμών, έχει ήδη χρησιμοποιήσει το Evals για να συμπληρώσει τις ανθρώπινες αξιολογήσεις της και να μετρήσει την ακρίβεια των GPT-τροφοδοτούμενο εργαλείο τεκμηρίωσης.
Οι προγραμματιστές μπορούν να χρησιμοποιήσουν το Evals για να δημιουργήσουν και να εκτελέσουν αξιολογήσεις που:
- Χρησιμοποιήστε σύνολα δεδομένων για τη δημιουργία προτροπών,
- Μετρήστε την ποιότητα των ολοκληρώσεων που παρέχονται από ένα OpenAI μοντέλο, να
- Συγκρίνετε την απόδοση σε διαφορετικά σύνολα δεδομένων και μοντέλα.
Με τον κώδικα ανοιχτού κώδικα, οι προγραμματιστές μπορούν επίσης να γράψουν και να προσθέσουν ένα προσαρμοσμένη Eval καθώς διάφορα πρότυπα που μπορεί να φιλοξενήσει διαφορετικά σημεία αναφοράς. Η εταιρεία έχει συμπεριλάβει πρότυπα που ήταν πιο χρήσιμα εσωτερικά, συμπεριλαμβανομένου ενός προτύπου για "βαθμολογημένα μοντέλα", το οποίο GPT-4 μπορεί να χρησιμοποιήσει για να ελέγξει τη δική του εργασία. Ως παράδειγμα προς μίμηση, η εταιρεία δημιούργησε ένα λογικό παζλ που περιέχει δέκα προτροπές όπου GPT-4 αποτυγχάνει.
Το Evals είναι επίσης συμβατό με την εφαρμογή υφιστάμενων σημείων αναφοράς, συμπεριλαμβανομένων πολλών σημειωματάριων που εφαρμόζουν ακαδημαϊκά σημεία αναφοράς και μερικές παραλλαγές ενσωμάτωσης μικρών υποσυνόλων του CoQA.
Ενώ οι προγραμματιστές δεν θα πληρώνονται για τη συνεισφορά στο Evals, OpenAI θα χορηγηθεί GPT-4 πρόσβαση για περιορισμένο χρονικό διάστημα σε όσους συνεισφέρουν «αξιολογήσεις υψηλής ποιότητας».
Η ανακοίνωση του Evals έρχεται μετά OpenAI δήλωσε πρόσφατα θα σταματούσε να χρησιμοποιεί δεδομένα που υποβάλλονται από πελάτες μέσω του API για την εκπαίδευση ή τη βελτίωση των μοντέλων της, εκτός εάν οι πελάτες αποφασίσουν να επιλέξουν συμμετοχή. Η εταιρεία προσχωρεί στη Meta στα συγκριτικά σημεία αναφοράς crowdsourcing, καθώς η τελευταία αναθέτει στους ανθρώπους να «βρίσκουν αντίθετα παραδείγματα που ξεγελούν την τρέχουσα κατάσταση -μοντέλα τέχνης» για το DynaBench πλατφόρμα.
Διαβάστε περισσότερα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Η Σίντι είναι δημοσιογράφος στο Metaverse Post, καλύπτοντας θέματα που σχετίζονται με web3, NFT, metaverse και AI, με έμφαση στις συνεντεύξεις με Web3 παίκτες του κλάδου. Έχει μιλήσει με πάνω από 30 στελέχη C-level και πολλά άλλα, μεταφέροντας τις πολύτιμες γνώσεις τους στους αναγνώστες. Με καταγωγή από τη Σιγκαπούρη, η Cindy εδρεύει τώρα στην Τιφλίδα της Γεωργίας. Είναι κάτοχος πτυχίου Bachelor στις Επικοινωνίες & Σπουδές Μέσων από το Πανεπιστήμιο της Νότιας Αυστραλίας και έχει μια δεκαετία εμπειρίας στη δημοσιογραφία και τη συγγραφή. Επικοινωνήστε μαζί της μέσω [προστασία μέσω email] με δημοσιεύσεις τύπου, ανακοινώσεις και ευκαιρίες συνεντεύξεων.
Περισσότερα άρθραΗ Σίντι είναι δημοσιογράφος στο Metaverse Post, καλύπτοντας θέματα που σχετίζονται με web3, NFT, metaverse και AI, με έμφαση στις συνεντεύξεις με Web3 παίκτες του κλάδου. Έχει μιλήσει με πάνω από 30 στελέχη C-level και πολλά άλλα, μεταφέροντας τις πολύτιμες γνώσεις τους στους αναγνώστες. Με καταγωγή από τη Σιγκαπούρη, η Cindy εδρεύει τώρα στην Τιφλίδα της Γεωργίας. Είναι κάτοχος πτυχίου Bachelor στις Επικοινωνίες & Σπουδές Μέσων από το Πανεπιστήμιο της Νότιας Αυστραλίας και έχει μια δεκαετία εμπειρίας στη δημοσιογραφία και τη συγγραφή. Επικοινωνήστε μαζί της μέσω [προστασία μέσω email] με δημοσιεύσεις τύπου, ανακοινώσεις και ευκαιρίες συνεντεύξεων.