Raport aktualności SMW Technologia
30 maja 2023 r.

GPT-4Wyniki firmy na amerykańskim egzaminie adwokackim zaprzeczają jej twierdzeniom

W skrócie

Badanie GPT-4jego wyniki na jednolitym egzaminie adwokackim ujawniły rozbieżność między wynikami szacunkowymi a rzeczywistymi, podkreślając znaczenie przejrzystych procedur oceny i dostępnych danych.

OpenAI zachęca się do zajęcia się rozbieżnościami i opracowania bardziej kompleksowego i wiarygodnego podejścia do oceny modelu AI w celu zdobycia zaufania i zapewnienia wiarygodności.

W niedawnym badaniu GPT-4wyniki na jednolitym egzaminie adwokackim (EBU), pojawiły się wątpliwości co do dokładności OpenAIroszczenia dotyczące wskaźnika sukcesu modelu. Wbrew początkowemu twierdzeniu, że GPT-4 przewyższa 90% osób, ustalenia sugerują znaczną rozbieżność między szacowaną a rzeczywistą wydajnością modelu AI. To odkrycie podkreśla znaczenie przejrzystych procedur oceny i dostępnych danych do potwierdzania takich twierdzeń.

GPT-4Wyniki firmy na amerykańskim egzaminie adwokackim zaprzeczają jej twierdzeniom
@Midjourney

Badanie skupiało się na różnych czynnikach w celu ustalenia prawdziwych możliwości GPT-4. Po pierwsze, analiza pokazały to lutowe egzaminy w Illinois GPT-4jego wyniki zbliżyły się do 90. percentyl. Zaobserwowano jednak, że na te wyniki duży wpływ mieli osoby, które wcześniej nie zdały lipcowego egzaminu, a tym samym uzyskały wyniki poniżej ogólnej średniej.

Co więcej, wyniki lipcowego egzaminu były sprzeczne OpenAItwierdzeń, ujawniając to GPT-4 tylko przewyższają 68% osób i 48% esejów. GPT-4Wyniki uczniów w porównaniu z osobami, które przystąpiły do ​​egzaminu po raz pierwszy (z wyłączeniem poprawek) oceniono na 63. percentylu, biorąc pod uwagę oficjalne dane z kilku testów w różnych okresach, przy czym eseje uzyskały znacznie niższe wyniki na 41. percentylu.

Dodatkową perspektywę uzyskano poprzez zbadanie wyników osób, które zdały egzamin, zarówno osób posiadających licencję, jak i osób oczekujących na wydanie licencji. Pod tym względem, GPT-4jego ogólne wyniki znalazły się na 48. percentylu, a eseje wypadły jeszcze gorzej na 15. percentylu.

Chociaż ustalenia te są niepokojące, niezwykle ważne jest rozważenie możliwości wystąpienia błędu ludzkiego w procesie przeglądu. Autor artykułu podkreśla znaczenie zrozumienia próbki wykorzystywanej przez badaczy do oceny GPT-4wydajność. Brak oficjalnych danych, szczególnie w formie zagregowanej, utrudnia rzetelne porównanie i ocenę percentyli. Ustanowienie jasnych i dostępnych technik ewaluacji, które mogłyby zostać ocenione przez wszystkie zainteresowane strony, ma kluczowe znaczenie.

W odpowiedzi na te obawy OpenAI wzywa się do zajęcia się rozbieżnościami i dostarczyć dalszych spostrzeżeń w proces oceny. Przejrzystość i otwartość są niezbędne do zdobycia zaufania i zapewnienia wiarygodności modeli sztucznej inteligencji w dziedzinach o wysokiej stawce, takich jak prawo.

Należy zaznaczyć, że w artykule nie omówiono konkretnej punktacji uzyskanej przez GPT-4, który według doniesień wynosi 298. Ocena znaczenia tego wyniku wymaga kontekstowego zrozumienia stosowanego systemu oceniania. Podobnie jak dziecko wracające do domu ze szkoły z literą B może być powodem do radości lub rozczarowania, tak interpretacja litery „B” może być powodem do radości lub rozczarowania GPT-4Wynik zależy od zastosowanej skali.

Ocena GPT-4występ na egzaminie adwokackim budzi poważne obawy o prawdziwości OpenAIwstępne twierdzenia. Rozbieżność między szacowanymi a rzeczywistymi wynikami podkreśla znaczenie jasnych systemów oceny i łatwo dostępnych danych. OpenAI zachęca się do stawienia czoła tym wyzwaniom i opracowania bardziej integracyjnego i niezawodne podejście do AI ocena modelu.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Współpraca Chainlink i Rapid Addition nad opracowaniem adaptera Blockchain opartego na CCIP
Biznes Raport aktualności Technologia
Współpraca Chainlink i Rapid Addition nad opracowaniem adaptera Blockchain opartego na CCIP
1 maja 2024 r.
BitSmiley wprowadza na rynek Alphanet V1, debiutuje na bitlayerze sieci Bitcoin Layer 2
Raport aktualności Technologia
BitSmiley wprowadza na rynek Alphanet V1, debiutuje na bitlayerze sieci Bitcoin Layer 2
1 maja 2024 r.
W kwietniu 2024 r. odnotowano historycznie niski poziom hacków i oszustw, CertiK raportuje 141% spadek w porównaniu z marcem
rynki Bezpieczeństwo Wiki Historie i recenzje Technologia
W kwietniu 2024 r. odnotowano historycznie niski poziom hacków i oszustw, CertiK raportuje 141% spadek w porównaniu z marcem
1 maja 2024 r.
Cena Bitcoina spada przed ogłoszeniem decyzji Rezerwy Federalnej w sprawie stóp procentowych, analitycy ostrzegają przed potencjalną zmianą rynku
rynki Raport aktualności Technologia
Cena Bitcoina spada przed ogłoszeniem decyzji Rezerwy Federalnej w sprawie stóp procentowych, analitycy ostrzegają przed potencjalną zmianą rynku
1 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.