Nachrichtenbericht Technologie
27. Oktober 2023

Forscher replizierten OpenAI's Arbeit basierend auf Proximal Policy Optimization (PPO) in RLHF

Reinforcement Learning from Human Feedback (RLHF) ist ein integraler Bestandteil von Trainingssystemen wie ChatGPTund setzt auf spezielle Methoden, um erfolgreich zu sein. Eine dieser Methoden, Proximal Policy Optimization (PPO), war ursprünglich konzipiert innerhalb der Mauern von OpenAI im Jahr 2017. Auf den ersten Blick zeichnete sich PPO durch sein Versprechen einer einfachen Implementierung und einer relativ geringen Anzahl von Hyperparametern aus, die zur Feinabstimmung des Modells erforderlich sind. Allerdings steckt der Teufel, wie man so schön sagt, im Detail.

Forscher replizierten OpenAI's Arbeit basierend auf Proximal Policy Optimization (PPO) in RLHF

Kürzlich erschien ein Blogbeitrag mit dem Titel „Die 37 Implementierungsdetails der proximalen Richtlinienoptimierung” beleuchten die Feinheiten von PPO (vorbereitet für die ICLR-Konferenz). Allein der Name deutet bereits auf die Herausforderungen hin, die sich bei der Umsetzung dieser vermeintlich einfachen Methode stellen. Erstaunlicherweise brauchten die Autoren drei Jahre, um alle notwendigen Informationen zu sammeln und die Ergebnisse zu reproduzieren.

Der Code im OpenAI Das Repository erfuhr zwischen den Versionen erhebliche Änderungen, einige Aspekte blieben ungeklärt und Besonderheiten, die als Fehler auftraten, führten irgendwie zu Ergebnissen. Die Komplexität von PPO wird deutlich, wenn man sich mit den Details befasst, und für diejenigen, die an einem tieferen Verständnis oder einer Selbstverbesserung interessiert sind, gibt es eine sehr empfehlenswerte Videozusammenfassung.

Aber die Geschichte ist damit noch nicht zu Ende. Dieselben Autoren beschlossen, das noch einmal zu überdenken openai/lm-human-preferences-Repository aus dem Jahr 2019, das mithilfe von PPO eine entscheidende Rolle bei der Feinabstimmung von Sprachmodellen basierend auf menschlichen Vorlieben spielte. Dieses Endlager markierte die ersten Entwicklungen ChatGPT. Der aktuelle Blogbeitrag: „Die N-Implementierungsdetails von RLHF mit PPO“, reproduziert genau OpenAIfunktioniert, verwendet aber PyTorch und moderne Bibliotheken anstelle des veralteten TensorFlow. Dieser Übergang brachte eine Reihe eigener Herausforderungen mit sich, wie z. B. Unterschiede in der Implementierung des Adam-Optimierers zwischen den Frameworks, die es unmöglich machten, das Training ohne Anpassungen zu reproduzieren.

Der vielleicht faszinierendste Aspekt dieser Reise ist das Bestreben, Experimente mit bestimmten GPU-Setups durchzuführen, um originelle Metriken und Lernkurven zu erhalten. Es ist eine Reise voller Herausforderungen, von Speicherbeschränkungen bei verschiedenen GPU-Typen bis hin zur Migration von OpenAI Datensätze zwischen Speichereinrichtungen.

Zusammenfassend lässt sich sagen, dass die Untersuchung der Proximal Policy Optimization (PPO) beim Reinforcement Learning from Human Feedback (RLHF) eine faszinierende Welt voller Komplexität offenbart.

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Von Ripple zum Big Green DAO: Wie Kryptowährungsprojekte zur Wohltätigkeit beitragen

Lassen Sie uns Initiativen erkunden, die das Potenzial digitaler Währungen für wohltätige Zwecke nutzen.

Weitere Informationen

AlphaFold 3, Med-Gemini und andere: Die Art und Weise, wie KI das Gesundheitswesen im Jahr 2024 verändert

KI manifestiert sich im Gesundheitswesen auf verschiedene Weise, von der Aufdeckung neuer genetischer Zusammenhänge bis hin zur Stärkung robotergestützter chirurgischer Systeme ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Biswap veröffentlicht neue strategische Roadmap, die sich auf die Multi-Chain-Erweiterung und die Einführung von Liquid Staking konzentriert
Märkte Nachrichtenbericht Technologie
Biswap veröffentlicht neue strategische Roadmap, die sich auf die Multi-Chain-Erweiterung und die Einführung von Liquid Staking konzentriert
24. Mai 2024
Web3 KI enthüllt: Jimmy Zhao erläutert, wie BNB Chain Blockchain und AI Re integriertdefines Vertrauen, Transparenz und Dezentralisierung
Interview Geschäft Märkte Software Technologie
Web3 KI enthüllt: Jimmy Zhao erläutert, wie BNB Chain Blockchain und AI Re integriertdefines Vertrauen, Transparenz und Dezentralisierung
24. Mai 2024
Hyperliquid stellt HIP-1-Spot-Token-Bereitstellungsfunktion in seinem Mainnet vor und empfiehlt Tests für eine reibungslose Bereitstellung
Nachrichtenbericht Technologie
Hyperliquid stellt HIP-1-Spot-Token-Bereitstellungsfunktion in seinem Mainnet vor und empfiehlt Tests für eine reibungslose Bereitstellung
24. Mai 2024
Die Top-Angebote dieser Woche, große Investitionen in KI, IT, Web3, und Krypto (20-24.05)
Digest Top-Listen Geschäft Lifestyle Märkte Software Technologie
Die Top-Angebote dieser Woche, große Investitionen in KI, IT, Web3, und Krypto (20-24.05)
24. Mai 2024