Nachrichtenbericht Technologie
01. Juni 2023

OpenAI: Neue prozessüberwachte Belohnungsmodellierung verbessert das KI-Denken

In Kürze

OpenAIZiel der prozessüberwachten Belohnungsmodellierung (PRM) von ist es, die Zwischenschritte und Überlegungen von KI-Modellen zu bewerten, was zu verbesserter Leistung und Metriken führt.

OpenAI hat mit seiner bahnbrechenden Arbeit in der prozessüberwachten Belohnungsmodellierung erneut die Aufmerksamkeit der KI-Community auf sich gezogen (PRMs). Dieser innovative Ansatz zielt darauf ab, die Zwischenschritte und Überlegungen von KI-Modellen zu bewerten und so zu verbesserter Leistung und Metriken zu führen.

OpenAI: Neue prozessüberwachte Belohnungsmodellierung verbessert das KI-Denken
Kredit: Metaverse Post (mpost.io)
Empfohlen: ChatGPT Könnte die Wall Street verändern, indem der Handel einfacher wird

Beim traditionellen verstärkenden Lernen aus menschlichem Feedback (RLHF) erfolgt die Modellrückmeldung typischerweise auf der Grundlage des vom Modell generierten Gesamtergebnisses. Jedoch, OpenAIDie neue Forschung untersucht die Idee, die einzelnen Schritte und Argumentationsprozesse des Modells zu bewerten. Auf diese Weise können sie detailliertere Bewertungen und Rückmeldungen liefern.

Um dieses Problem anzugehen, OpenAI ausgewählte mathematische Probleme, die mehrere Aktionen erforderten. Ein separates Modell wurde darin geschult, die Zwischenschritte effektiv zu bewerten und als Kritiker zu fungieren, um etwaige fehlerhafte Urteile des Primärmodells zu identifizieren. Dieser Prozess steigert nicht nur die Gesamtleistung, sondern verbessert auch die Metriken, die zur Bewertung der Modellfähigkeiten verwendet werden.

OpenAI hat in diesem Bereich mit der Veröffentlichung eines sorgfältig kuratierten Datensatzes, bestehend aus 800,000 markierte Urteile. Jedes Urteil stellt einen separaten Schritt bei der Lösung mathematischer Probleme dar und wurde manuell erstellt. Dies unterstreicht das Maß an Engagement und Ressourcen OpenAI investiert in die Entwicklung hochwertiger DatensätzeDies wirft Fragen zum Umfang der für andere Bereiche wie Programmierung oder offenen Fragen gesammelten Daten auf.

Die Ausbildung von GPT-4, OpenAIist die neueste Version des GPT Serie, ist bereits in vollem Gange. Während die RLHF-Komponente in den aktuellen Experimenten nicht enthalten ist, wird ein reines Sprachmodell verwendet. Vor allem, OpenAI erwähnt, dass es mehrere Versionen von gibt GPT-4, wobei selbst die kleinste Version deutlich weniger Ressourcen für das Training benötigt – etwa 200-mal weniger.

Ein faszinierendes Beispiel, geteilt von OpenAI zeigt, wie das Modell jeden einzelnen Entscheidungsschritt bewertet. In einem im Beitrag enthaltenen Screenshot werden Fehler in der Lösung markiert und mit der niedrigsten Korrektheitsbewertung versehen, die rot hervorgehoben ist.
Kredit: OpenAI

Ein faszinierendes Beispiel, geteilt von OpenAI Zeigt, wie das Modell bewertet wird jeden einzelnen Entscheidungsschritt. In einem im Beitrag enthaltenen Screenshot werden Fehler in der Lösung markiert und mit der niedrigsten Korrektheitsbewertung versehen, die rot hervorgehoben ist. Diese Demonstration unterstreicht die Denkfähigkeit des Modells und liefert wertvolle Einblicke in seinen Entscheidungsprozess. OpenAI hat auch Anleitungen für Markups bereitgestellt und bietet Crowdsourcern die Möglichkeit, einen Beitrag zu leisten und von ihrer Arbeit zu profitieren.

As OpenAI verschiebt weiterhin die Grenzen der KI-Forschung. Ihr Fokus auf Modellschlussfolgerungen und prozessüberwachter Belohnungsmodellierung eröffnet neue Möglichkeiten für verbesserte KI-Fähigkeiten. Dieser jüngste Durchbruch unterstreicht ihr Engagement für die Verbesserung der Modellleistung und öffnet Türen für weitere Fortschritte auf diesem Gebiet.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Donald Trumps Wandel zur Kryptowährung: Vom Gegner zum Befürworter und was er für den US-amerikanischen Kryptowährungsmarkt bedeutet
Geschäft Märkte Geschichten und Rezensionen Technologie
Donald Trumps Wandel zur Kryptowährung: Vom Gegner zum Befürworter und was er für den US-amerikanischen Kryptowährungsmarkt bedeutet
10. Mai 2024
Layer3 wird diesen Sommer L3-Token einführen und 51 % des Gesamtangebots der Community zur Verfügung stellen
Märkte Nachrichtenbericht Technologie
Layer3 wird diesen Sommer L3-Token einführen und 51 % des Gesamtangebots der Community zur Verfügung stellen
10. Mai 2024
Edward Snowdens letzte Warnung an Bitcoin-Entwickler: „Machen Sie den Datenschutz zu einer Priorität auf Protokollebene, sonst riskieren Sie, ihn zu verlieren.“
Märkte Sicherheit Wiki Software Geschichten und Rezensionen Technologie
Edward Snowdens letzte Warnung an Bitcoin-Entwickler: „Machen Sie den Datenschutz zu einer Priorität auf Protokollebene, sonst riskieren Sie, ihn zu verlieren.“
10. Mai 2024
Das von Optimismus geprägte Ethereum Layer 2 Network Mint startet sein Mainnet am 15. Mai
Nachrichtenbericht Technologie
Das von Optimismus geprägte Ethereum Layer 2 Network Mint startet sein Mainnet am 15. Mai
10. Mai 2024