Raport aktualności Technologia
July 04, 2023

Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi

W skrócie

Metoda oceny LLM ewoluowała w celu poprawy dokładności i rzetelności w ocenie modeli językowych.

Autorzy wykorzystali A GPT-4 podejście porównawcze, obejmujące dziesiątki tysięcy rzeczywistych reakcji ludzkich, w celu gromadzenia danych i rozwiązywania problemów, takich jak błąd w szacunkach, preferencja w zakresie szczegółowości, stronniczość polegająca na samotwierdzeniu i ograniczona zdolność rozumowania.

W niedawnej serii artykułów poświęconych tzw ocena LLMpodkreślono, że skalowalność i opłacalność doprowadziły do ​​przyjęcia a GPT-4 podejście porównawcze. Wiązało się to z użyciem jednego modelu do oceny różnych odpowiedzi na to samo pytanie i wybraniem najlepszej odpowiedzi w celu stworzenia systemu rankingowego. Jak wspomniano wcześniej, metoda ta miała istotne ograniczenia. Twórcy Ocena LMSYS.org, którzy wprowadzili to podejście kilka miesięcy temu, zdecydowali się teraz zastąpić je nową metodą oceny.

Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
kredyt: Metaverse Post (mpostio)

W trakcie swojej pracy zespół zebrał dziesiątki tysięcy prawdziwych odpowiedzi ludzkich, porównując preferencje dotyczące różnych odpowiedzi. Ten obszerny zbiór danych umożliwił im dokładniejsze zrozumienie zalet i wad związanych z każdą odpowiedzią. Nowa metoda oceny nadal opiera się na GPT-4, stosując automatyzację i skalowalność. Jest dostępny dla każdego w przystępnej cenie.

Aby zapewnić uczciwość w procesie oceny za pomocą GPT-4uwzględniono następujące wyzwania:

  1. Błąd oszacowania wynikający z preferencji pozycji.
  2. Skłonność do gadatliwości, faworyzowanie dłuższych odpowiedzi bez uwzględniania ich jakości.
  3. Błąd autoafirmacji, w którym preferencje są skłonne do własnych odpowiedzi modelu lub wyszkolone modele na nich.
  4. Ograniczona zdolność rozumowania przy ocenie pytań matematycznych i logicznych.
Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
Oto kilka ilustracji 80 ocenianych pytań. Dla każdej z trzech grup istnieją dwie części tego samego pytania.
Możesz przeglądać wszystkie pytania, wszystkie odpowiedzi modeli i porównania parami między ponad 20 modelami na dedykowanej stronie internetowej (https://huggingface.co/spaces/lmsys/mt-bench). Jak zwykle sekcje Rozumowanie i Kodowanie zawierają najbardziej fascynujące przykłady.

Po wdrożeniu różnych rozwiązań mających na celu złagodzenie tych problemów autorzy odkryli, że potężne modele językowe, takie jak GPT-4 dobrze odpowiadają ludzkim preferencjom, osiągając ponad 80% zgodności w ocenach. Oznacza to, że ocena modelu pokrywa się z ocenami człowieka w 80% przypadków, co stanowi poziom zgodności porównywalny z oceną dwóch różnych osób oceniających pracujących nad tym samym zadaniem. OpenAI podał również, że nawet ściśle współpracujący współautorzy artykułu zgadzają się w 82-86% przypadków.

Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
Ten test porównawczy pokazuje, jak wyraźnie modele różnią się w przypadku różnych zestawów pytań. Największa luka występuje w rozumowaniu i kodowaniu, gdzie poziom modeli jest znacznie większy GPT-4. Modeli można jednak używać zarówno podczas odgrywania ról, jak i pisania zwykłych tekstów. Autorzy opublikowali tutaj nowe modele Vicuna v1.3 o rozmiarach od 7 do 33 miliardów parametrów https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

Należy zauważyć, że chociaż nie jest to „doskonały sposób” oceny, stanowi znaczną poprawę w stosunku do poprzednich metod. Autorzy zamierzają obecnie rozszerzyć swój zbiór danych do 1000 pytań zamiast 80 i aktywnie pracują nad udoskonaleniem podpowiedzi, aby zmniejszyć błędy systematyczne GPT-4 szacunki. Rozważają jeszcze dwie obiektywne oceny: jedną opartą na głosowaniu prawdziwych ludzi (zwaną „areną”, na której rywalizują modele) z wykorzystaniem punktów Elo, a drugą opartą na przewidywaniach z Benchmark MMLU.

Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
Innym intrygującym faktem jest to, że GPT-4 model jest jedynym, który zachowuje jakość, odpowiadając na drugie pytanie. Jest to nieco kwestionowane z dwóch powodów: 1) Model nadal ocenia się sam 2) Chociaż różnica jest znikoma, pokazuje, jak nieodpowiednie są inne modele w wykonywaniu wieloobrotowych dialogów i instrukcji.

Ulepszone porównanie modeli z GPT-4

Wraz z niedawnym pojawieniem się różnych modeli językowych, takich jak wigoń, koala i dolly, praktyka polega na porównywaniu modeli GPT-4 zyskał popularność. Pojawia się unikalny monit, w którym wstawiane są dwie odpowiedzi na to samo pytanie, jedna z modelu A, a druga z modelu B. Oceniający są następnie proszeni o ocenę odpowiedzi w skali od 1 do 8, gdzie 1 oznacza, że ​​model A jest znacząco lepszy, 8 – model B, a 4-5 oznacza remis. Wyniki 2-3 i 6-7 wskazują na „lepszy model”.

Deweloperzy przedstawiają nowość GPT-4-Oparta na metodzie samooceny LLM, osiągająca 80% zgodności z ocenami ludzkimi
Może się wydawać logiczne, że zamiana modeli A i B nie wpłynie znacząco na wyniki (np. 7 staje się 2, a 8 staje się 1), a konsekwentna przewaga jednego modelu doprowadziłaby do jego zwycięstwa. Pojawia się jednak zjawisko „błądzenia pozycyjnego”, w którym model ma tendencję do częstszego przypisywania wyższych ocen modelowi A (jeden). Oczekuje się, że to odchylenie będzie wykazywać symetrię wokół punktu środkowego 4-5, ponieważ wzorce podpowiedzi są tasowane losowo. Ocena ludzka uwzględnia tę stronniczość, aby zapewnić sprawiedliwość.

W wnikliwe badanie przeprowadzone przez zespół HuggingFace, ocenili odpowiedzi czterech modeli na 329 różnych pytań. Wśród interesujących wyników badania ujawniono następujące:

  1. Ranking czterech modeli oparty na porównaniach parami był spójny między oceną człowieka a oceną GPT-4, chociaż zaobserwowano różne luki w rankingu Elo. Oznacza to, że model potrafi rozróżnić dobre i złe odpowiedzi, ale radzi sobie z przypadkami granicznymi, które w mniejszym stopniu odpowiadają ocenie ludzi.
  2. Co ciekawe, model oceniał odpowiedzi z innych modeli, zwłaszcza tych, na których trenowano GPT-4 odpowiedzi, wyższe niż odpowiedzi prawdziwych ludzi.
  3. Istnieje wysoka korelacja (Pearson=0.96) pomiędzy GPT-4 wynik i liczbę unikalnych tokenów w odpowiedzi. Sugeruje to, że model nie ocenia jakości odpowiedzi, podkreślając potrzebę ostrożnej interpretacji.

Odkrycia te podkreślają znaczenie dokładnej oceny podczas użytkowania GPT-4 do porównania modeli. Chociaż model może w pewnym stopniu różnicować odpowiedzi, jego oceny nie zawsze idealnie pokrywają się z oceną człowieka, szczególnie w przypadku zróżnicowanych scenariuszy. Opierając się wyłącznie na danych, należy zachować ostrożność i wziąć pod uwagę dodatkowe czynniki GPT-4 wyniki. Udoskonalając podpowiedzi i uwzględniając różnorodne oceny, badacze dążą do zwiększenia wiarygodności i dokładności GPT-4 szacunki.

Artykuł powstał dzięki wsparciu firmy społeczność kanału telegramu.

Przeczytaj więcej o sztucznej inteligencji:

Zastrzeżenie

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wiadomości

Cisza przed sztormem Solana: co mówią teraz wykresy, wieloryby i sygnały łańcuchowe

Solana wykazała się solidnymi wynikami, na co wpływ miał rosnący popyt, zainteresowanie instytucji i kluczowe partnerstwa, mimo iż musiała stawić czoła potencjalnym...

Dowiedz się więcej

Krypto w kwietniu 2025: Kluczowe trendy, zmiany i co dalej

W kwietniu 2025 r. przestrzeń kryptowalutowa skupiła się na wzmocnieniu podstawowej infrastruktury, a Ethereum przygotowywało się na Pectra ...

Dowiedz się więcej
Czytaj więcej
Przeczytaj więcej
Eightco pozyskuje 125 mln USD w ramach finansowania instytucjonalnego, którego liderami są Bitmine, ARK Invest i Payward, aby przyspieszyć inwestycje w technologie nowej generacji
Business Raport aktualności Technologia
Eightco pozyskuje 125 mln USD w ramach finansowania instytucjonalnego, którego liderami są Bitmine, ARK Invest i Payward, aby przyspieszyć inwestycje w technologie nowej generacji
13 marca 2026 r.
CZ kwestionuje twierdzenia Forbesa dotyczące wartości netto majątku; Jak bogaci są najwięksi przedstawiciele świata kryptowalut?
Business rynki Raport aktualności Technologia
CZ kwestionuje twierdzenia Forbesa dotyczące wartości netto majątku; Jak bogaci są najwięksi przedstawiciele świata kryptowalut?
13 marca 2026 r.
Od wzrostu do pewności: rozmowa przy kominku w HSC Asset Management na temat zmian na rynku i globalnego wpływu Chin
Sezony hackowania Opinia Business Styl życia Raport aktualności Technologia
Od wzrostu do pewności: rozmowa przy kominku w HSC Asset Management na temat zmian na rynku i globalnego wpływu Chin
13 marca 2026 r.
Samuele Marro, badacz sztucznej inteligencji z Uniwersytetu Oksfordzkiego, o zdecentralizowanej sztucznej inteligencji i technologii blockchain: Kiedy integracja dodaje wartości, ale ogranicza innowacyjność
Wywiad Technologia
Samuele Marro, badacz sztucznej inteligencji z Uniwersytetu Oksfordzkiego, o zdecentralizowanej sztucznej inteligencji i technologii blockchain: Kiedy integracja dodaje wartości, ale ogranicza innowacyjność
13 marca 2026 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.