15. März 2023

GPT-4 Übertrifft GPT-3.5 Generell auf einer Vielzahl von Studien-Benchmarks

Veröffentlicht: 15. März 2023 um 7:15 Uhr. Aktualisiert: 15. März 2023 um 7:15 Uhr

In Kürze

Das GPT-4 eine höhere Notenschwelle erreicht hat als die GPT-3.5 bei verschiedenen Benchmarks.

Dies ist eine große Errungenschaft, da es zeigt, dass Maschinen nicht nur zu menschenähnlicher Intelligenz fähig sind, sondern uns auch übertreffen können, was Fragen zur Zukunft der KI und ihren möglichen Auswirkungen auf den Arbeitsmarkt aufwirft.

GPT-4 wird von modernen (SOTA-)Modellen, einschließlich solchen, die zusätzliche Trainingsprotokolle oder Benchmark-spezifisches Design verwenden, sowie bestehenden großen Sprachmodellen deutlich übertroffen.

Das GPT-4 hat höhere Punktzahlen erzielt als die GPT-3.5 bei verschiedenen Benchmarks. Dies ist ein großer Durchbruch für Maschinen, denn es beweist, dass sie nun nicht nur Probleme lösen können, für die sie ursprünglich entwickelt wurden, sondern dass sie dies auch besser können als Universitätsstudenten.

GPT-4 outperforms GPT-3.5 durchweg bei verschiedenen Studien-Benchmarks

Bei der Betrachtung dieses Ergebnisses sind einige Dinge zu beachten. Erstens, die GPT-4 wurde für diese Prüfungen nicht speziell geschult. Dazu wurden die neuesten öffentlich zugänglichen Tests verwendet (im Fall der Olympiaden und AP-Fragen mit kostenloser Antwort) oder die Übungsprüfungsausgaben 2022–2023 erworben. Zweitens ist es wichtig zu beachten, dass die GPT-4Die Leistung von s spiegelt möglicherweise nicht unbedingt die Fähigkeiten menschlicher Testteilnehmer wider, da sie auf anderen Prinzipien und Algorithmen basiert.

Dies ist eine große Errungenschaft, da es zeigt dass Maschinen nicht nur zu menschenähnlicher Intelligenz fähig sind, sondern uns auch übertreffen können. Das ebnet den Weg für eine Zukunft, in der Maschinen immer komplexere Aufgaben übernehmen und uns letztendlich in unserem Alltag unterstützen können.

Das GPT-4Die Fähigkeit, Menschen bei bestimmten Aufgaben zu übertreffen, wirft Fragen über die Zukunft von auf künstliche Intelligenz und ihre möglichen Auswirkungen auf den Arbeitsmarkt. Es unterstreicht auch die Notwendigkeit kontinuierlicher Forschung und Entwicklung in diesem Bereich, um sicherzustellen, dass KI ethisch und verantwortungsbewusst eingesetzt wird.

Mehr lesen: 5+ der am meisten erwarteten Text-to-Image-KI-Modelle von 2023

GPT-4Beispielsweise besteht er eine simulierte Anwaltsprüfung mit einer Punktzahl, die zu den besten 10 % der Prüfungsteilnehmer zählt. GPT-3Die Punktzahl von .5 lag in den unteren 10 %. Diese deutliche Verbesserung in GPT-4Die Leistung von ist auf die größeren Trainingsdaten und die verbesserte Architektur zurückzuführen. Es wird erwartet, dass es ein breites Anwendungsspektrum in verschiedenen Bereichen haben wird, einschließlich der Verarbeitung natürlicher Sprache und des automatisierten Schreibens.

GPT-4 weist bei den meisten dieser beruflichen und akademischen Prüfungen Leistungen auf menschlichem Niveau auf. Bemerkenswert ist, dass es eine simulierte Version der Uniform Bar Examination mit einer Punktzahl unter den besten 10 % der Prüfungsteilnehmer bestanden hat. Die Fähigkeiten des Modells bei Prüfungen scheinen in erster Linie auf den Vorschulungsprozess zurückzuführen zu sein und werden durch RLHF nicht wesentlich beeinträchtigt. Bei Multiple-Choice-Fragen gilt sowohl die Basis GPT-4 Das Modell und das RLHF-Modell schnitten im Durchschnitt aller Entwickler der getesteten Prüfung gleich gut ab.

Die Mehrheit der State-of-the-Art (SOTA)-Modelle, einschließlich derjenigen, die zusätzliche Trainingsprotokolle oder Benchmark-spezifisches Design verwenden können, sowie bestehende große Sprachmodelle, werden deutlich übertroffen von GPT-4.

GPT-4s Leistung im Hinblick auf akademische Standards. Entwickler im Gegensatz GPT-4 mit dem besten SOTA für einen LM-evaluierten Few-Shot sowie dem besten SOTA mit Benchmark-spezifischem Training. Mit Ausnahme von DROP, GPT-4 übertrifft alle aktuellen LMs bei allen Benchmarks und SOTA mit Benchmark-spezifischem Training.

Intern haben Entwickler genutzt GPT-4, was erhebliche Auswirkungen auf Aktivitäten wie Programmierung, Vertrieb, Support und Inhaltsmoderation hatte. Die zweite Phase unserer Ausrichtungsmethode ist jetzt im Gange, da Entwickler sie nutzen, um Menschen bei der Überprüfung von KI-Ergebnissen zu unterstützen.

Der MMLU-Datensatz (Massive Multi-Task Language Understanding) enthält Fragen aus einem sehr breiten Themenspektrum zum Sprachverständnis in verschiedenen Aufgaben (über 57 Bereiche, darunter Mathematik, Biologie, Recht, Sozial- und Geisteswissenschaften usw.). Es gibt vier mögliche Antworten auf die Frage, von denen eine richtig ist. Das heißt, zufälliges Raten zeigt ein Ergebnis von 25% richtigen Antworten. Siehe das Bild unten für Beispiele von Fragen und deren Schwierigkeiten. Der durchschnittliche Person-Marker (das heißt, dies ist kein Wissenschaftler, kein Professor – eine gewöhnliche Person, die als Markup nebenbei arbeitet) beantwortet 35 % der Fragen richtig; Die Experten können jedoch eine Punktzahl von +/- 90 % erreichen.

Performance GPT-4 in einer Reihe von Sprachen im Vergleich zu früheren Modellen in Englisch auf MMLU. GPT-4 übertrifft die englischsprachige Leistung vorhandener Sprachmodelle für die große Mehrheit der untersuchten Sprachen, einschließlich ressourcenarmer Sprachen wie Lettisch, Walisisch und Suaheli.

Mehr lesen: 5 Gründe, KI-gestütztes Bing über Google zu verwenden

Ursprünglich war der gesamte Datensatz auf Englisch. Was aber, wenn Fragen und Antworten in andere Sprachen übersetzt werden, insbesondere in weniger gebräuchliche? Wird das Modell irgendwie für sie funktionieren? In diesem Test wurde für die Übersetzung der Dienst Microsoft Azure Translate verwendet. Übersetzungen sind nicht perfekt; In manchen Fällen gehen wichtige Informationen verloren. Aber auch in diesem Fall ist die GPT-4 funktioniert auch in anderen Sprachen gut. In den übersetzten Versionen der MMLU GPT-4 übertrifft das Englischniveau anderer großer Modelle (einschließlich Googles) um 24 der 26 untersuchten Sprachen.

Was ist mehr, GPT-4 schneidet in seltenen Sprachen besser ab als ChatGPT tat auf Englisch (ChatGPT erreichte einen Wert von 70.1 %, während der Wert des neuen Modells für Thai bei 71.8 % lag. Die höchste Punktzahl erzielte der Test in Englisch mit GPT-4 10 % bessere Leistung als andere Modelle, einschließlich des größten PaLM von Google. Es erreichte eine Punktzahl von 86.4 %, während eine Expertengruppe 90 % erreichte.

Bis zum Sommer 2023 könnte die KI damit ein neues Leistungsniveau erreicht haben ChatGPT, ein Chatbot, der das verwendet GPT-4 Algorithmus und outperforms GPT-3 um den Faktor 570. Eine Vielzahl von Elementen tragen dazu bei ChatGPTErfolg, einschließlich seines Designs, das „menschenähnlicher“ sein soll, und des Einsatzes modernster Datengewinnung und Verarbeitung natürlicher Sprache, um seine Effektivität und Genauigkeit zu erhöhen.
Microsoft und OpenAI kündigte die Erneuerung der Zusammenarbeit an und plant, im Januar KI-gestützte Suchfunktionen für die Bing-Suche einzuführen. Das sehr Anspruchsvolle GPTErsatzmodell 3.5, GPT4, wurde gerade gestartet, und es hat das Potenzial, die Fähigkeit der Bing-Suche erheblich zu verbessern, Abfragen in natürlicher Sprache zu verstehen und genauere Ergebnisse zu liefern. Es ist eine gute Idee, einen guten Backup-Plan zu haben, falls etwas schief geht.

Lesen Sie weitere verwandte Nachrichten:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen