Nachrichtenbericht SMW Technologie
30. Mai 2023

GPT-4Die Leistung von 's bei der US-Anwaltsprüfung steht im Widerspruch zu seinen Behauptungen

In Kürze

Die Prüfung von GPT-4Die Leistung bei der Uniform Bar Exam zeigte eine Diskrepanz zwischen der geschätzten und der tatsächlichen Leistung und unterstreicht die Bedeutung transparenter Bewertungsverfahren und zugänglicher Daten.

OpenAI wird ermutigt, Unstimmigkeiten anzugehen und einen umfassenderen und zuverlässigeren Ansatz für die Bewertung von KI-Modellen zu entwickeln, um Vertrauen zu gewinnen und Glaubwürdigkeit sicherzustellen.

In einer aktuellen Untersuchung von GPT-4's Leistung bei der Uniform Bar Exam (UBE) bestehen Zweifel an der Richtigkeit von OpenAIBehauptungen bezüglich der Erfolgsquote des Modells. Entgegen der anfänglichen Behauptung, dass GPT-4 übertrifft 90 % der IndividuenDie Ergebnisse deuten auf eine erhebliche Diskrepanz zwischen der geschätzten und der tatsächlichen Leistung des KI-Modells hin. Diese Offenbarung unterstreicht die Bedeutung transparenter Bewertungsverfahren und zugänglicher Daten für die Validierung solcher Behauptungen.

GPT-4Die Leistung von 's bei der US-Anwaltsprüfung steht im Widerspruch zu seinen Behauptungen
@Midjourney

Die Untersuchung konzentrierte sich auf verschiedene Faktoren, um die wahren Fähigkeiten von zu ermitteln GPT-4. Erstens die Analyse Das haben die Prüfungen im Februar in Illinois ergeben GPT-4Die Ergebnisse näherten sich dem 90. Perzentil. Es wurde jedoch beobachtet, dass diese Ergebnisse stark von Wiederholern beeinflusst wurden, die zuvor die Juli-Prüfung nicht bestanden hatten und daher unter dem Gesamtdurchschnitt lagen.

Darüber hinaus waren die Ergebnisse der Juli-Prüfung widersprüchlich OpenAI's Behauptungen, die das enthüllen GPT-4 würde nur Übertreffen 68 % der Menschen und 48 % der Aufsätze. GPT-4Die Leistung von 's im Vergleich zu Erstteilnehmern (ohne Wiederholungen) wurde beim 63. Perzentil bewertet, wenn offizielle Daten aus mehreren Tests zu unterschiedlichen Zeiträumen berücksichtigt wurden, wobei Aufsätze beim 41. Perzentil deutlich schlechter abschnitten.

Eine zusätzliche Perspektive wurde durch die Untersuchung der Leistung derjenigen gewonnen, die die Prüfung bestanden haben, einschließlich lizenzierter Personen und derjenigen, die auf die Lizenzierung warten. In diesem Zusammenhang GPT-4Die Gesamtleistung wurde im 48. Perzentil eingestuft, Aufsätze schnitten im 15. Perzentil sogar noch schlechter ab.

Obwohl diese Ergebnisse besorgniserregend sind, ist es wichtig, die Möglichkeit menschlicher Fehler im Überprüfungsprozess zu berücksichtigen. Der Autor des Artikels betont, wie wichtig es ist, die von den Forschern zur Auswertung verwendete Stichprobe zu verstehen GPT-4's Leistung. Der Mangel an offiziellen Daten, insbesondere in aggregierter Form, erschwert einen fairen Vergleich und die Bewertung von Perzentilen. Es ist von entscheidender Bedeutung, klare und zugängliche Bewertungstechniken zu etablieren, die von allen Beteiligten bewertet werden können.

Als Reaktion auf diese Bedenken OpenAI wird dringend gebeten, die Unstimmigkeiten anzugehen und geben weitere Einblicke in den Bewertungsprozess ein. Transparenz und Offenheit sind unerlässlich, um Vertrauen zu gewinnen und die Glaubwürdigkeit von KI-Modellen in wichtigen Bereichen wie dem Recht sicherzustellen.

Es ist zu beachten, dass der Artikel nicht auf die spezifische Punktzahl eingeht, die von erzielt wurde GPT-4, die bei 298 liegt. Um die Bedeutung dieser Punktzahl beurteilen zu können, ist ein kontextbezogenes Verständnis des verwendeten Bewertungssystems erforderlich. So wie ein Kind, das mit einer Zwei von der Schule nach Hause kommt, entweder ein Grund zum Feiern oder zur Enttäuschung sein kann, ist die Interpretation des GPT-4Die Punktzahl hängt von der verwendeten Skala ab.

Die Bewertung von GPT-4's Leistung bei der Anwaltsprüfung gibt Anlass zu ernsten Bedenken über die Wahrhaftigkeit von OpenAI's erste Behauptungen. Die Kluft zwischen geschätzter und tatsächlicher Leistung unterstreicht die Bedeutung klarer Bewertungssysteme und leicht zugänglicher Daten. OpenAI wird ermutigt, sich diesen Herausforderungen zu stellen und eine integrativere und integrativere Lösung zu entwickeln zuverlässiger Ansatz für KI Modellbewertung.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen

Den Gründern von Samourai Wallet wird vorgeworfen, Darknet-Deals im Wert von 2 Milliarden US-Dollar ermöglicht zu haben

Die Besorgnis der Samourai Wallet-Gründer stellt einen bemerkenswerten Rückschlag für die Branche dar und unterstreicht die anhaltende ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Chainlink und Rapid Addition arbeiten bei der Entwicklung eines CCIP-basierten Blockchain-Adapters zusammen
Geschäft Nachrichtenbericht Technologie
Chainlink und Rapid Addition arbeiten bei der Entwicklung eines CCIP-basierten Blockchain-Adapters zusammen
1. Mai 2024
BitSmiley bringt Alphanet V1 auf den Markt und debütiert im Bitcoin Layer 2 Network Bitlayer
Nachrichtenbericht Technologie
BitSmiley bringt Alphanet V1 auf den Markt und debütiert im Bitcoin Layer 2 Network Bitlayer
1. Mai 2024
April 2024 verzeichnet einen historischen Tiefpunkt bei Hacks und Betrügereien, CertiK meldet einen Rückgang von 141 % gegenüber März
Märkte Sicherheit Wiki Geschichten und Rezensionen Technologie
April 2024 verzeichnet einen historischen Tiefpunkt bei Hacks und Betrügereien, CertiK meldet einen Rückgang von 141 % gegenüber März
1. Mai 2024
Der Bitcoin-Preis sinkt im Vorfeld der Zinsentscheidung der Federal Reserve, Analysten warnen vor einer möglichen Marktverschiebung
Märkte Nachrichtenbericht Technologie
Der Bitcoin-Preis sinkt im Vorfeld der Zinsentscheidung der Federal Reserve, Analysten warnen vor einer möglichen Marktverschiebung
1. Mai 2024