Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
W skrócie
Metoda oceny LLM ewoluowała w celu poprawy dokładności i rzetelności w ocenie modeli językowych.
Autorzy wykorzystali A GPT-4 podejście porównawcze, obejmujące dziesiątki tysięcy rzeczywistych reakcji ludzkich, w celu gromadzenia danych i rozwiązywania problemów, takich jak błąd w szacunkach, preferencja w zakresie szczegółowości, stronniczość polegająca na samotwierdzeniu i ograniczona zdolność rozumowania.
W niedawnej serii artykułów poświęconych tzw ocena LLMpodkreślono, że skalowalność i opłacalność doprowadziły do przyjęcia a GPT-4 podejście porównawcze. Wiązało się to z użyciem jednego modelu do oceny różnych odpowiedzi na to samo pytanie i wybraniem najlepszej odpowiedzi w celu stworzenia systemu rankingowego. Jak wspomniano wcześniej, metoda ta miała istotne ograniczenia. Twórcy Ocena LMSYS.org, którzy wprowadzili to podejście kilka miesięcy temu, zdecydowali się teraz zastąpić je nową metodą oceny.
W trakcie swojej pracy zespół zebrał dziesiątki tysięcy prawdziwych odpowiedzi ludzkich, porównując preferencje dotyczące różnych odpowiedzi. Ten obszerny zbiór danych umożliwił im dokładniejsze zrozumienie zalet i wad związanych z każdą odpowiedzią. Nowa metoda oceny nadal opiera się na GPT-4, stosując automatyzację i skalowalność. Jest dostępny dla każdego w przystępnej cenie.
Aby zapewnić uczciwość w procesie oceny za pomocą GPT-4uwzględniono następujące wyzwania:
- Błąd oszacowania wynikający z preferencji pozycji.
- Skłonność do gadatliwości, faworyzowanie dłuższych odpowiedzi bez uwzględniania ich jakości.
- Błąd autoafirmacji, w którym preferencje są skłonne do własnych odpowiedzi modelu lub wyszkolone modele na nich.
- Ograniczona zdolność rozumowania przy ocenie pytań matematycznych i logicznych.
Możesz przeglądać wszystkie pytania, wszystkie odpowiedzi modeli i porównania parami między ponad 20 modelami na dedykowanej stronie internetowej (https://huggingface.co/spaces/lmsys/mt-bench). Jak zwykle sekcje Rozumowanie i Kodowanie zawierają najbardziej fascynujące przykłady.
Po wdrożeniu różnych rozwiązań mających na celu złagodzenie tych problemów autorzy odkryli, że potężne modele językowe, takie jak GPT-4 dobrze odpowiadają ludzkim preferencjom, osiągając ponad 80% zgodności w ocenach. Oznacza to, że ocena modelu pokrywa się z ocenami człowieka w 80% przypadków, co stanowi poziom zgodności porównywalny z oceną dwóch różnych osób oceniających pracujących nad tym samym zadaniem. OpenAI podał również, że nawet ściśle współpracujący współautorzy artykułu zgadzają się w 82-86% przypadków.

Należy zauważyć, że chociaż nie jest to „doskonały sposób” oceny, stanowi znaczną poprawę w stosunku do poprzednich metod. Autorzy zamierzają obecnie rozszerzyć swój zbiór danych do 1000 pytań zamiast 80 i aktywnie pracują nad udoskonaleniem podpowiedzi, aby zmniejszyć błędy systematyczne GPT-4 szacunki. Rozważają jeszcze dwie obiektywne oceny: jedną opartą na głosowaniu prawdziwych ludzi (zwaną „areną”, na której rywalizują modele) z wykorzystaniem punktów Elo, a drugą opartą na przewidywaniach z Benchmark MMLU.
Ulepszone porównanie modeli z GPT-4
Wraz z niedawnym pojawieniem się różnych modeli językowych, takich jak wigoń, koala i dolly, praktyka polega na porównywaniu modeli GPT-4 zyskał popularność. Pojawia się unikalny monit, w którym wstawiane są dwie odpowiedzi na to samo pytanie, jedna z modelu A, a druga z modelu B. Oceniający są następnie proszeni o ocenę odpowiedzi w skali od 1 do 8, gdzie 1 oznacza, że model A jest znacząco lepszy, 8 – model B, a 4-5 oznacza remis. Wyniki 2-3 i 6-7 wskazują na „lepszy model”.
W wnikliwe badanie przeprowadzone przez zespół HuggingFace, ocenili odpowiedzi czterech modeli na 329 różnych pytań. Wśród interesujących wyników badania ujawniono następujące:
- Ranking czterech modeli oparty na porównaniach parami był spójny między oceną człowieka a oceną GPT-4, chociaż zaobserwowano różne luki w rankingu Elo. Oznacza to, że model potrafi rozróżnić dobre i złe odpowiedzi, ale radzi sobie z przypadkami granicznymi, które w mniejszym stopniu odpowiadają ocenie ludzi.
- Co ciekawe, model oceniał odpowiedzi z innych modeli, zwłaszcza tych, na których trenowano GPT-4 odpowiedzi, wyższe niż odpowiedzi prawdziwych ludzi.
- Istnieje wysoka korelacja (Pearson=0.96) pomiędzy GPT-4 wynik i liczbę unikalnych tokenów w odpowiedzi. Sugeruje to, że model nie ocenia jakości odpowiedzi, podkreślając potrzebę ostrożnej interpretacji.
Odkrycia te podkreślają znaczenie dokładnej oceny podczas użytkowania GPT-4 do porównania modeli. Chociaż model może w pewnym stopniu różnicować odpowiedzi, jego oceny nie zawsze idealnie pokrywają się z oceną człowieka, szczególnie w przypadku zróżnicowanych scenariuszy. Opierając się wyłącznie na danych, należy zachować ostrożność i wziąć pod uwagę dodatkowe czynniki GPT-4 wyniki. Udoskonalając podpowiedzi i uwzględniając różnorodne oceny, badacze dążą do zwiększenia wiarygodności i dokładności GPT-4 szacunki.
Artykuł powstał dzięki wsparciu firmy społeczność kanału telegramu.
Przeczytaj więcej o sztucznej inteligencji:
Zastrzeżenie
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułów
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.