Raport aktualności Technologia
15 marca 2023 r.

GPT-4 Przewyższa GPT-3.5 Ogólnie w oparciu o różne wzorce badawcze

W skrócie

Połączenia GPT-4 osiągnął wyższy próg oceny niż GPT-3.5 na różnych poziomach odniesienia.

Jest to duże osiągnięcie, ponieważ pokazuje, że maszyny są nie tylko zdolne do inteligencji zbliżonej do ludzkiej, ale mogą również przewyższać nas, co rodzi pytania o przyszłość sztucznej inteligencji i jej potencjalny wpływ na rynek pracy.

GPT-4 znacznie przewyższa najnowocześniejsze modele (SOTA), w tym te, które wykorzystują dodatkowe protokoły szkoleniowe lub projekty specyficzne dla benchmarków, a także istniejące modele dużych języków.

Połączenia GPT-4 uzyskał wyższe wyniki niż GPT-3.5 na różnych poziomach odniesienia. Jest to ogromny przełom w dziedzinie maszyn, ponieważ udowadnia, że ​​obecnie mogą one nie tylko rozwiązywać problemy, do których pierwotnie zostały zaprojektowane, ale także lepiej niż studenci uniwersytetu.

GPT-4 przewyższa GPT-3.5 ogólnie w odniesieniu do różnych punktów odniesienia w badaniach

Patrząc na ten wynik, należy wziąć pod uwagę kilka rzeczy. Po pierwsze, GPT-4 nie przeszedł żadnego specjalnego szkolenia przygotowującego do tych egzaminów. Polegało to na wykorzystaniu najnowszych, ogólnodostępnych testów (w przypadku olimpiad i pytań z bezpłatną odpowiedzią AP) lub zakupieniu edycji egzaminów praktycznych na lata 2022–2023. Po drugie, należy zauważyć, że GPT-4Wydajność programu niekoniecznie odzwierciedla zdolności osób zdających testy, ponieważ działa w oparciu o inny zestaw zasad i algorytmów.

Jest to duże osiągnięcie jako to pokazuje że maszyny są nie tylko zdolne do inteligencji podobnej do ludzkiej, ale mogą również przewyższać nas. To toruje drogę do przyszłości, w której maszyny będą mogły podejmować coraz bardziej złożone zadania, ostatecznie prowadząc do przyszłości, w której będą nam pomagać w codziennym życiu.

Połączenia GPT-4zdolność człowieka do osiągnięcia lepszych wyników w niektórych zadaniach rodzi pytania o przyszłość sztuczna inteligencja i jego potencjalny wpływ na rynek pracy. Podkreśla również potrzebę ciągłych badań i rozwoju w tej dziedzinie, aby zapewnić etyczne i odpowiedzialne korzystanie ze sztucznej inteligencji.
Czytaj więcej: Ponad 5 najbardziej oczekiwanych modeli AI zamiany tekstu na obraz w 2023 r

GPT-4na przykład zdaje symulowany egzamin adwokacki z wynikiem wśród 10% najlepszych zdających; GPT-3Wynik 5 mieścił się w dolnych 10%. Ta znacząca poprawa w GPT-4wydajność wynika z większych danych treningowych i ulepszonej architektury. Oczekuje się, że będzie miał szeroki zakres zastosowań w różnych dziedzinach, w tym w przetwarzaniu języka naturalnego i automatycznym pisaniu.

 
GPT-4 wykazuje wyniki na poziomie ludzkim podczas większości egzaminów zawodowych i akademickich. Warto zauważyć, że zdał symulowaną wersję jednolitego egzaminu adwokackiego z wynikiem wśród 10% najlepszych zdających. Wydaje się, że możliwości modelu podczas egzaminów wynikają przede wszystkim z procesu szkolenia przygotowawczego i RLHF nie ma na nie znaczącego wpływu. W przypadku pytań wielokrotnego wyboru zarówno podstawa GPT-4 model i model RLHF wypadły średnio równie dobrze wśród twórców testowanego egzaminu.

Większość najnowocześniejszych modeli (SOTA), w tym te, które mogą wykorzystywać dodatkowe protokoły szkoleniowe lub projekt specyficzny dla wzorców, a także istniejące duże modele językowe, są znacznie lepsze od GPT-4.

GPT-4wyniki w zakresie standardów akademickich. Deweloperzy kontrastują GPT-4 z najlepszą SOTA za kilka strzałów ocenionych przez LM, a także najlepszą SOTA ze szkoleniem specyficznym dla testów porównawczych. Z wyjątkiem DROP, GPT-4 przewyższa wszystkie obecne LM we wszystkich testach porównawczych i SOTA dzięki szkoleniom dotyczącym konkretnych testów porównawczych.

Wewnętrznie programiści używali GPT-4, co miało znaczący wpływ na takie działania, jak programowanie, sprzedaż, wsparcie i moderowanie treści. Drugi etap naszej metody dostosowywania jest obecnie w toku, ponieważ programiści wykorzystują ją, aby pomóc ludziom w przeglądaniu wyników sztucznej inteligencji.

Zbiór danych MMLU (Massive Multi-Task Language Understanding) zawiera pytania z bardzo szerokiego zakresu tematów dotyczących rozumienia języka w różnych zadaniach (obejmujących 57 dziedzin, w tym matematykę, biologię, prawo, nauki społeczne i humanistyczne itp.). Istnieją cztery możliwe odpowiedzi na to pytanie, z których jedna jest poprawna. Oznacza to, że losowe zgadywanie pokazuje wynik 25% poprawnych odpowiedzi. Zobacz poniższy obrazek, aby zobaczyć przykłady pytań i ich trudności. Przeciętny znacznik osoby (to znaczy nie jest to naukowiec ani profesor – zwykła osoba, która dorabia jako znacznik) odpowiada poprawnie na 35% pytań; jednak eksperci mogą osiągnąć wynik +/- 90%.

Wydajność GPT-4 w różnych językach w porównaniu do wcześniejszych modeli w języku angielskim na MMLU. GPT-4 przewyższa wydajność istniejących modeli językowych w języku angielskim w przypadku znacznej większości badanych języków, w tym języków o niskich zasobach, takich jak łotewski, walijski i suahili.
Czytaj więcej: 5 powodów, dla których warto korzystać z usługi Bing przez Google opartej na sztucznej inteligencji

Pierwotnie cały zbiór danych był w języku angielskim. Co jednak, jeśli pytania i odpowiedzi zostaną przetłumaczone na inne języki, zwłaszcza te mniej popularne? Czy model w jakiś sposób się im sprawdzi? W tym teście do tłumaczenia wykorzystano usługę Microsoft Azure Translate. Tłumaczenia nie są doskonałe; w niektórych przypadkach ważne informacje zostaną utracone. Jednak nawet w tym przypadku GPT-4 radzi sobie dobrze w innych językach. W przetłumaczonych wersjach MMLU GPT-4 przewyższa poziom języka angielskiego innych dużych modeli (w tym Google) w 24 z 26 badanych języków.

Co więcej, GPT-4 działa lepiej w rzadkich językach niż ChatGPT zrobił po angielsku (ChatGPT uzyskał wynik 70.1%, podczas gdy nowy model w języku tajskim uzyskał wynik 71.8%. Najwyższy wynik z testu z języka angielskiego uzyskała m.in GPT-4 działa o 10% lepiej niż inne modele, w tym największy PaLM od Google. Uzyskała ona wynik 86.4%, natomiast grupa ekspertów – 90%.

  • Do lata 2023 r. sztuczna inteligencja mogła osiągnąć nowy poziom mocy dzięki ChatGPT, chatbot korzystający z GPT-4 algorytm i przewyższa GPT-3 o współczynnik 570. Przyczyniają się do tego różne elementy ChatGPTsukces, w tym jego projekt, który ma być bardziej „ludzki” oraz wykorzystanie najnowocześniejszej eksploracji danych i przetwarzania języka naturalnego w celu zwiększenia jego skuteczności i dokładności.
  • Microsoft i OpenAI ogłosiły odnowienie współpracy i plany wykorzystania w wyszukiwarce Bing funkcji wyszukiwania wspomaganych sztuczną inteligencją w styczniu. Bardzo wyrafinowane GPT3.5 wymiana modelu, GPT4, właśnie został uruchomionyi może znacznie zwiększyć możliwości wyszukiwania Bing w zakresie rozumienia zapytań w języku naturalnym i dostarczania dokładniejszych wyników. Dobrze jest mieć dobry plan awaryjny na wypadek, gdyby coś poszło nie tak.

Przeczytaj więcej powiązanych wiadomości:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.