Αναφορά ειδήσεων Τεχνολογία
Οκτώβριος 27, 2023

Οι ερευνητές αναπαράγονται OpenAIΈργο του 's Based on Proximal Policy Optimization (PPO) στο RLHF

Η Ενισχυτική Μάθηση από την Ανθρώπινη Ανατροφοδότηση (RLHF) είναι αναπόσπαστο μέρος των εκπαιδευτικών συστημάτων όπως ChatGPT, και βασίζεται σε εξειδικευμένες μεθόδους για την επιτυχία. Μία από αυτές τις μεθόδους, η Proximal Policy Optimization (PPO), ήταν αρχικά συλληφθεί μέσα στα τείχη του OpenAI το 2017. Με την πρώτη ματιά, το PPO ξεχώρισε για την υπόσχεσή του για απλότητα στην υλοποίηση και για έναν σχετικά χαμηλό αριθμό υπερπαραμέτρων που απαιτούνται για τη λεπτομερή ρύθμιση του μοντέλου. Ωστόσο, όπως λένε, ο διάβολος είναι στις λεπτομέρειες.

Οι ερευνητές αναπαράγονται OpenAIΈργο του 's Based on Proximal Policy Optimization (PPO) στο RLHF

Πρόσφατα, μια ανάρτηση ιστολογίου με τίτλο «Οι 37 Λεπτομέρειες Εφαρμογής του Proximal Policy Optimizationρίξει φως στις περιπλοκές του PPO (που προετοιμάστηκε για τη διάσκεψη της ICLR). Το όνομα και μόνο υποδηλώνει τις προκλήσεις που αντιμετωπίζει η εφαρμογή αυτής της υποτιθέμενης απλής μεθόδου. Παραδόξως, οι συγγραφείς χρειάστηκαν τρία χρόνια για να συγκεντρώσουν όλες τις απαραίτητες πληροφορίες και να αναπαράγουν τα αποτελέσματα.

Ο κωδικός στο OpenAI Το αποθετήριο υπέστη σημαντικές αλλαγές μεταξύ των εκδόσεων, ορισμένες πτυχές έμειναν ανεξήγητες και οι ιδιαιτερότητες που εμφανίστηκαν ως σφάλματα κατά κάποιο τρόπο παρήγαγαν αποτελέσματα. Η πολυπλοκότητα του PPO γίνεται εμφανής όταν εμβαθύνετε στις λεπτομέρειες και για όσους ενδιαφέρονται για μια βαθιά κατανόηση ή αυτοβελτίωση, υπάρχει μια ιδιαίτερα προτεινόμενη σύνοψη βίντεο διαθέσιμη.

Όμως η ιστορία δεν τελειώνει εκεί. Οι ίδιοι συγγραφείς αποφάσισαν να επανεξετάσουν το openai/lm-human-preferences repository από το 2019, η οποία έπαιξε καθοριστικό ρόλο στη βελτίωση των μοντέλων γλώσσας με βάση τις ανθρώπινες προτιμήσεις, χρησιμοποιώντας PPO. Αυτό το αποθετήριο σημάδεψε τις πρώτες εξελίξεις ChatGPT. Η πρόσφατη ανάρτηση ιστολογίου, "Τα N Στοιχεία Υλοποίησης του RLHF με PPO», επαναλαμβάνει στενά OpenAIεργάζεται αλλά χρησιμοποιεί PyTorch και σύγχρονες βιβλιοθήκες αντί για το ξεπερασμένο TensorFlow. Αυτή η μετάβαση ήρθε με το δικό της σύνολο προκλήσεων, όπως διαφορές στην εφαρμογή του βελτιστοποιητή Adam μεταξύ πλαισίων, καθιστώντας αδύνατη την αναπαραγωγή της εκπαίδευσης χωρίς προσαρμογές.

Ίσως η πιο ενδιαφέρουσα πτυχή αυτού του ταξιδιού είναι η αναζήτηση πειραμάτων σε συγκεκριμένες ρυθμίσεις GPU για να αποκτήσετε πρωτότυπες μετρήσεις και καμπύλες εκμάθησης. Είναι ένα ταξίδι γεμάτο προκλήσεις, από περιορισμούς μνήμης σε διάφορους τύπους GPU έως τη μετεγκατάσταση OpenAI σύνολα δεδομένων μεταξύ των εγκαταστάσεων αποθήκευσης.

Συμπερασματικά, η εξερεύνηση του Proximal Policy Optimization (PPO) στο Reinforcement Learning από την Ανθρώπινη Ανατροφοδότηση (RLHF) αποκαλύπτει έναν συναρπαστικό κόσμο πολυπλοκοτήτων.

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
Η στροφή του Ντόναλντ Τραμπ στην κρυπτογράφηση: Από αντίπαλος σε συνήγορος και τι σημαίνει για την αγορά κρυπτονομισμάτων των ΗΠΑ
Business αγορές Ιστορίες και κριτικές Τεχνολογία
Η στροφή του Ντόναλντ Τραμπ στην κρυπτογράφηση: Από αντίπαλος σε συνήγορος και τι σημαίνει για την αγορά κρυπτονομισμάτων των ΗΠΑ
10 Μαΐου 2024
Layer3 για κυκλοφορία L3 Token αυτό το καλοκαίρι, κατανέμοντας το 51% της συνολικής προσφοράς στην κοινότητα
αγορές Αναφορά ειδήσεων Τεχνολογία
Layer3 για κυκλοφορία L3 Token αυτό το καλοκαίρι, κατανέμοντας το 51% της συνολικής προσφοράς στην κοινότητα
10 Μαΐου 2024
Η τελική προειδοποίηση του Έντουαρντ Σνόουντεν προς τους προγραμματιστές Bitcoin: «Κάντε το απόρρητο προτεραιότητα σε επίπεδο πρωτοκόλλου ή κινδυνεύετε να το χάσετε
αγορές Ασφάλεια Wiki λογισμικό Ιστορίες και κριτικές Τεχνολογία
Η τελική προειδοποίηση του Έντουαρντ Σνόουντεν προς τους προγραμματιστές Bitcoin: «Κάντε το απόρρητο προτεραιότητα σε επίπεδο πρωτοκόλλου ή κινδυνεύετε να το χάσετε
10 Μαΐου 2024
Το Optimism-Powered Ethereum Layer 2 Network Mint θα κυκλοφορήσει το Mainnet του στις 15 Μαΐου
Αναφορά ειδήσεων Τεχνολογία
Το Optimism-Powered Ethereum Layer 2 Network Mint θα κυκλοφορήσει το Mainnet του στις 15 Μαΐου
10 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.