GPT-4Wyniki firmy na amerykańskim egzaminie adwokackim zaprzeczają jej twierdzeniom
W skrócie
Badanie GPT-4jego wyniki na jednolitym egzaminie adwokackim ujawniły rozbieżność między wynikami szacunkowymi a rzeczywistymi, podkreślając znaczenie przejrzystych procedur oceny i dostępnych danych.
OpenAI zachęca się do zajęcia się rozbieżnościami i opracowania bardziej kompleksowego i wiarygodnego podejścia do oceny modelu AI w celu zdobycia zaufania i zapewnienia wiarygodności.
W niedawnym badaniu GPT-4wyniki na jednolitym egzaminie adwokackim (EBU), pojawiły się wątpliwości co do dokładności OpenAIroszczenia dotyczące wskaźnika sukcesu modelu. Wbrew początkowemu twierdzeniu, że GPT-4 przewyższa 90% osób, ustalenia sugerują znaczną rozbieżność między szacowaną a rzeczywistą wydajnością modelu AI. To odkrycie podkreśla znaczenie przejrzystych procedur oceny i dostępnych danych do potwierdzania takich twierdzeń.
Badanie skupiało się na różnych czynnikach w celu ustalenia prawdziwych możliwości GPT-4. Po pierwsze, analiza pokazały to lutowe egzaminy w Illinois GPT-4jego wyniki zbliżyły się do 90. percentyl. Zaobserwowano jednak, że na te wyniki duży wpływ mieli osoby, które wcześniej nie zdały lipcowego egzaminu, a tym samym uzyskały wyniki poniżej ogólnej średniej.
Co więcej, wyniki lipcowego egzaminu były sprzeczne OpenAItwierdzeń, ujawniając to GPT-4 tylko przewyższają 68% osób i 48% esejów. GPT-4Wyniki uczniów w porównaniu z osobami, które przystąpiły do egzaminu po raz pierwszy (z wyłączeniem poprawek) oceniono na 63. percentylu, biorąc pod uwagę oficjalne dane z kilku testów w różnych okresach, przy czym eseje uzyskały znacznie niższe wyniki na 41. percentylu.
Dodatkową perspektywę uzyskano poprzez zbadanie wyników osób, które zdały egzamin, zarówno osób posiadających licencję, jak i osób oczekujących na wydanie licencji. Pod tym względem, GPT-4jego ogólne wyniki znalazły się na 48. percentylu, a eseje wypadły jeszcze gorzej na 15. percentylu.
Chociaż ustalenia te są niepokojące, niezwykle ważne jest rozważenie możliwości wystąpienia błędu ludzkiego w procesie przeglądu. Autor artykułu podkreśla znaczenie zrozumienia próbki wykorzystywanej przez badaczy do oceny GPT-4wydajność. Brak oficjalnych danych, szczególnie w formie zagregowanej, utrudnia rzetelne porównanie i ocenę percentyli. Ustanowienie jasnych i dostępnych technik ewaluacji, które mogłyby zostać ocenione przez wszystkie zainteresowane strony, ma kluczowe znaczenie.
W odpowiedzi na te obawy OpenAI wzywa się do zajęcia się rozbieżnościami i dostarczyć dalszych spostrzeżeń w proces oceny. Przejrzystość i otwartość są niezbędne do zdobycia zaufania i zapewnienia wiarygodności modeli sztucznej inteligencji w dziedzinach o wysokiej stawce, takich jak prawo.
Należy zaznaczyć, że w artykule nie omówiono konkretnej punktacji uzyskanej przez GPT-4, który według doniesień wynosi 298. Ocena znaczenia tego wyniku wymaga kontekstowego zrozumienia stosowanego systemu oceniania. Podobnie jak dziecko wracające do domu ze szkoły z literą B może być powodem do radości lub rozczarowania, tak interpretacja litery „B” może być powodem do radości lub rozczarowania GPT-4Wynik zależy od zastosowanej skali.
Ocena GPT-4występ na egzaminie adwokackim budzi poważne obawy o prawdziwości OpenAIwstępne twierdzenia. Rozbieżność między szacowanymi a rzeczywistymi wynikami podkreśla znaczenie jasnych systemów oceny i łatwo dostępnych danych. OpenAI zachęca się do stawienia czoła tym wyzwaniom i opracowania bardziej integracyjnego i niezawodne podejście do AI ocena modelu.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.