Udviklere løfter sløret for en ny GPT-4-Baseret metode til selvevaluering af LLM'er, opnåelse af 80 % overensstemmelse med menneskelige evalueringer
Kort sagt
LLM-evalueringsmetoden har udviklet sig for at forbedre nøjagtigheden og retfærdigheden i vurderingen af sprogmodeller.
Forfatterne brugte en GPT-4 sammenligningstilgang, der involverer titusindvis af rigtige menneskelige svar, for at indsamle data og adressere udfordringer såsom estimeringsbias, detaljeringspræference, selvhævdende bias og begrænset ræsonnement.
I en nylig række artikler, der diskuterer evaluering af LLM'er, blev det fremhævet, at skalerbarhed og omkostningseffektivitet førte til vedtagelsen af en GPT-4 sammenligningstilgang. Dette indebar at bruge én model til at evaluere forskellige svar på det samme spørgsmål, vælge det bedste svar for at skabe et rangeringssystem. Som tidligere nævnt havde denne metode bemærkelsesværdige begrænsninger. Skaberne af LMSYS.org bedømmelse, som introducerede denne tilgang for et par måneder siden, har nu besluttet at erstatte den med en ny evalueringsmetode.
I løbet af deres arbejde samlede holdet titusindvis af rigtige menneskelige svar, der sammenlignede præferencer for forskellige svar. Dette omfattende datasæt gjorde det muligt for dem at opnå en mere præcis forståelse af fordele og ulemper forbundet med hvert svar. Den nye evalueringsmetode er stadig afhængig af GPT-4, der anvender automatisering og skalerbarhed. Det er tilgængeligt for alle til en overkommelig pris.
For at sikre retfærdighed i evalueringsprocessen vha GPT-4, blev følgende udfordringer løst:
- Estimationsbias som følge af positionspræference.
- Tilbøjelighed til ordlyd, foretrækker længere svar uden at tage hensyn til deres kvalitet.
- Selvhævdende bias, hvor præferencer er tilbøjelige til modellens egne svar el modeller uddannet på dem.
- Begrænset begrundelsesevne ved vurdering af matematiske og logiske spørgsmål.
Du kan se alle spørgsmål, alle modelsvar og parvise sammenligninger mellem mere end 20 modeller på et dedikeret websted (https://huggingface.co/spaces/lmsys/mt-bench). Som sædvanlig indeholder sektionerne Begrundelse og kodning de mest fascinerende eksempler.
Efter at have implementeret forskellige løsninger til at afbøde disse problemer, opdagede forfatterne, at magtfulde sprogmodeller gerne GPT-4 stemmer godt overens med menneskelige præferencer og opnår over 80 % overensstemmelse i evalueringer. Det betyder, at modellens vurdering falder sammen med menneskelige vurderinger i 80 % af tilfældene, et niveau af overensstemmelse, der kan sammenlignes med to forskellige menneskelige evaluatorer, der arbejder med den samme opgave. OpenAI har også rapporteret, at selv medforfattere til en artikel, som samarbejder tæt, er enige i 82-86% af tilfældene.

Det er vigtigt at bemærke, at selvom dette ikke er en "perfekt måde" at evaluere på, repræsenterer det en væsentlig forbedring i forhold til tidligere metoder. Forfatterne sigter nu på at udvide deres datasæt til at omfatte 1000 spørgsmål i stedet for 80, og de arbejder aktivt på at forfine prompts for at reducere skævheder i GPT-4 skøn. De overvejer yderligere to objektive vurderinger: en baseret på afstemning fra rigtige mennesker (kendt som "arena", hvor modeller konkurrerer) ved hjælp af Elo-point, og en anden baseret på forudsigelser fra MMLU benchmark.
Forbedring af modelsammenligning med GPT-4
Med den nylige fremkomst af forskellige sprogmodeller som Vicuna, Koala og Dolly, er praksis med at sammenligne modeller ved hjælp af GPT-4 har vundet popularitet. Der gives en unik prompt, hvor to svar på det samme spørgsmål, et fra model A og et andet fra model B, er indsat. Evaluatorer bliver derefter bedt om at bedømme svarene på en skala fra 1 til 8, hvor 1 indikerer, at model A er væsentligt bedre, 8 for model B, og 4-5 repræsenterer uafgjort. Score på 2-3 og 6-7 indikerer en "bedre model."
I en indsigtsfuld undersøgelse udført af teamet hos HuggingFace, vurderede de svarene fra fire modeller til 329 forskellige spørgsmål. Blandt de interessante resultater afslørede undersøgelsen følgende:
- Rangeringen af de fire modeller baseret på parvise sammenligninger var konsistent mellem menneskelig vurdering og GPT-4, selvom der blev observeret forskellige Elo-vurderingsgab. Dette indikerer, at modellen kan skelne mellem gode og dårlige svar, men kæmper med grænsetilfælde, der er mindre på linje med menneskelige vurderinger.
- Interessant nok vurderede modellen svar fra andre modeller, især dem, der blev trænet på GPT-4 svar, højere end rigtige menneskelige svar.
- Der er en høj korrelation (Pearson=0.96) mellem GPT-4 score og antallet af unikke tokens i svaret. Dette tyder på, at modellen ikke evaluerer kvaliteten af svaret, hvilket understreger behovet for forsigtig fortolkning.
Disse resultater understreger vigtigheden af omhyggelig evaluering ved brug GPT-4 til modelsammenligning. Selvom modellen til en vis grad kan skelne mellem svarene, stemmer dens vurderinger måske ikke altid perfekt med menneskelige vurderinger, især i nuancerede scenarier. Det er afgørende at udvise forsigtighed og overveje yderligere faktorer, når man udelukkende stoler på GPT-4 scoringer. Ved at forfine prompter og indarbejde forskellige vurderinger, sigter forskerne på at øge pålideligheden og nøjagtigheden af GPT-4 anslår.
Artiklen er skrevet med støtte fra telegramkanalfællesskab.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artikler
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.