Nyheds rapport Teknologier
Juli 04, 2023

Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer

Kort sagt

LLM-evalueringsmetoden har udviklet sig for at forbedre nøjagtigheden og retfærdigheden i vurderingen af ​​sprogmodeller.

Forfatterne brugte en GPT-4 sammenligningstilgang, der involverer titusindvis af rigtige menneskelige svar, for at indsamle data og adressere udfordringer såsom estimeringsbias, detaljeringspræference, selvhævdende bias og begrænset ræsonnement.

I en nylig række artikler, der diskuterer evaluering af LLM'er, blev det fremhævet, at skalerbarhed og omkostningseffektivitet førte til vedtagelsen af ​​en GPT-4 sammenligningstilgang. Dette indebar at bruge én model til at evaluere forskellige svar på det samme spørgsmål, vælge det bedste svar for at skabe et rangeringssystem. Som tidligere nævnt havde denne metode bemærkelsesværdige begrænsninger. Skaberne af LMSYS.org bedømmelse, som introducerede denne tilgang for et par måneder siden, har nu besluttet at erstatte den med en ny evalueringsmetode.

Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
Credit: Metaverse Post (mpost.io)

I løbet af deres arbejde samlede holdet titusindvis af rigtige menneskelige svar, der sammenlignede præferencer for forskellige svar. Dette omfattende datasæt gjorde det muligt for dem at opnå en mere præcis forståelse af fordele og ulemper forbundet med hvert svar. Den nye evalueringsmetode er stadig afhængig af GPT-4, der anvender automatisering og skalerbarhed. Det er tilgængeligt for alle til en overkommelig pris.

For at sikre retfærdighed i evalueringsprocessen vha GPT-4, blev følgende udfordringer løst:

  1. Estimationsbias som følge af positionspræference.
  2. Tilbøjelighed til ordlyd, foretrækker længere svar uden at tage hensyn til deres kvalitet.
  3. Selvhævdende bias, hvor præferencer er tilbøjelige til modellens egne svar el modeller uddannet på dem.
  4. Begrænset begrundelsesevne ved vurdering af matematiske og logiske spørgsmål.
Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
Her er nogle illustrationer af de 80 vurderede spørgsmål. For hver af de tre grupper er der to dele til det samme spørgsmål.
Du kan se alle spørgsmål, alle modelsvar og parvise sammenligninger mellem mere end 20 modeller på et dedikeret websted (https://huggingface.co/spaces/lmsys/mt-bench). Som sædvanlig indeholder sektionerne Begrundelse og kodning de mest fascinerende eksempler.

Efter at have implementeret forskellige løsninger til at afbøde disse problemer, opdagede forfatterne, at magtfulde sprogmodeller gerne GPT-4 stemmer godt overens med menneskelige præferencer og opnår over 80 % overensstemmelse i evalueringer. Det betyder, at modellens vurdering falder sammen med menneskelige vurderinger i 80 % af tilfældene, et niveau af overensstemmelse, der kan sammenlignes med to forskellige menneskelige evaluatorer, der arbejder med den samme opgave. OpenAI har også rapporteret, at selv medforfattere til en artikel, som samarbejder tæt, er enige i 82-86% af tilfældene.

Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
Dette benchmark viser, hvor markant modellerne adskiller sig i forskellige sæt spørgsmål. Det største hul er i ræsonnement og kodning, hvor niveauet af modeller er så langt over GPT-4. Men modeller kan bruges både i rollespil og ved at skrive almindelige tekster. Forfatterne har offentliggjort nye Vicuna v1.3-modeller med størrelser fra 7 til 33 milliarder parametre her https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

Det er vigtigt at bemærke, at selvom dette ikke er en "perfekt måde" at evaluere på, repræsenterer det en væsentlig forbedring i forhold til tidligere metoder. Forfatterne sigter nu på at udvide deres datasæt til at omfatte 1000 spørgsmål i stedet for 80, og de arbejder aktivt på at forfine prompts for at reducere skævheder i GPT-4 skøn. De overvejer yderligere to objektive vurderinger: en baseret på afstemning fra rigtige mennesker (kendt som "arena", hvor modeller konkurrerer) ved hjælp af Elo-point, og en anden baseret på forudsigelser fra MMLU benchmark.

Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
En anden spændende kendsgerning er, at GPT-4 modellen er den eneste, der bevarer kvaliteten, når den besvarer det andet spørgsmål. Dette er noget omstridt af to grunde: 1) Modellen vurderer stadig sig selv 2) Selvom forskellen er ubetydelig, illustrerer den, hvor utilstrækkelige andre modeller er til at følge multi-turn dialoger og instruktioner.

Forbedring af modelsammenligning med GPT-4

Med den nylige fremkomst af forskellige sprogmodeller som Vicuna, Koala og Dolly, er praksis med at sammenligne modeller ved hjælp af GPT-4 har vundet popularitet. Der gives en unik prompt, hvor to svar på det samme spørgsmål, et fra model A og et andet fra model B, er indsat. Evaluatorer bliver derefter bedt om at bedømme svarene på en skala fra 1 til 8, hvor 1 indikerer, at model A er væsentligt bedre, 8 for model B, og 4-5 repræsenterer uafgjort. Score på 2-3 og 6-7 indikerer en "bedre model."

Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
Det kan virke logisk, at udskiftning af model A og B ikke ville påvirke scorerne væsentligt (f.eks. 7 bliver 2, 8 bliver til 1), og konsekvent overlegenhed af én model ville føre til dens sejr. Fænomenet "positionel skævhed" opstår dog, hvor modellen har en tendens til at give højere scorer hyppigere til model A (en). Denne bias forventes at udvise symmetri omkring 4-5 midtpunktet, da promptmønstrene blandes tilfældigt. Menneskelig evaluering tager højde for denne skævhed for at sikre retfærdighed.

I en indsigtsfuld undersøgelse udført af teamet hos HuggingFace, vurderede de svarene fra fire modeller til 329 forskellige spørgsmål. Blandt de interessante resultater afslørede undersøgelsen følgende:

  1. Rangeringen af ​​de fire modeller baseret på parvise sammenligninger var konsistent mellem menneskelig vurdering og GPT-4, selvom der blev observeret forskellige Elo-vurderingsgab. Dette indikerer, at modellen kan skelne mellem gode og dårlige svar, men kæmper med grænsetilfælde, der er mindre på linje med menneskelige vurderinger.
  2. Interessant nok vurderede modellen svar fra andre modeller, især dem, der blev trænet på GPT-4 svar, højere end rigtige menneskelige svar.
  3. Der er en høj korrelation (Pearson=0.96) mellem GPT-4 score og antallet af unikke tokens i svaret. Dette tyder på, at modellen ikke evaluerer kvaliteten af ​​svaret, hvilket understreger behovet for forsigtig fortolkning.

Disse resultater understreger vigtigheden af ​​omhyggelig evaluering ved brug GPT-4 til modelsammenligning. Selvom modellen til en vis grad kan skelne mellem svarene, stemmer dens vurderinger måske ikke altid perfekt med menneskelige vurderinger, især i nuancerede scenarier. Det er afgørende at udvise forsigtighed og overveje yderligere faktorer, når man udelukkende stoler på GPT-4 scoringer. Ved at forfine prompter og indarbejde forskellige vurderinger, sigter forskerne på at øge pålideligheden og nøjagtigheden af GPT-4 anslår.

Artiklen er skrevet med støtte fra telegramkanalfællesskab.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Stilheden før Solana-stormen: Hvad diagrammer, hvaler og signaler på kæden siger nu

Solana har vist stærke resultater, drevet af stigende implementering, institutionel interesse og vigtige partnerskaber, samtidig med at den står over for potentielle ...

Vide mere

Krypto i april 2025: Vigtigste tendenser, ændringer og hvad der kommer bagefter

I april 2025 fokuserede kryptomarkedet på at styrke kerneinfrastrukturen, hvor Ethereum forberedte sig på Pectra ...

Vide mere
Læs mere
Læs mere
HSC Asset Management afslutter Hong Kong-udgaven med indsigt i, hvordan institutionel deltagelse fremmes Web3 Og fremvoksende teknologi
Featured Hack sæsoner Forretning Lifestyle Markeder Nyheds rapport Teknologier
HSC Asset Management afslutter Hong Kong-udgaven med indsigt i, hvordan institutionel deltagelse fremmes Web3 Og fremvoksende teknologi
Februar 13, 2026
CertiK vinder prisen for 'Bedste sikkerheds- og compliance-løsning 2026' ved SiGMA AIBC Eurasia Awards
Nyheds rapport Teknologier
CertiK vinder prisen for 'Bedste sikkerheds- og compliance-løsning 2026' ved SiGMA AIBC Eurasia Awards
Februar 13, 2026
Binance, BlackRock og Ripple fører an i institutionelt krypto-fremstød i februars anden uge
Forretning Nyheds rapport Teknologier
Binance, BlackRock og Ripple fører an i institutionelt krypto-fremstød i februars anden uge
Februar 13, 2026
Gates grundlægger, Dr. Han, om at fremme næste generations finansielle system via intelligent teknologi Web3
Forretning Nyheds rapport Teknologier
Gates grundlægger, Dr. Han, om at fremme næste generations finansielle system via intelligent teknologi Web3
Februar 13, 2026