August 23, 2023

Forskere udfordrer forestillingen om 'emerging Abilities' af store sprogmodeller

Udgivet: 23. august 2023 kl. 5 Opdateret: 54. august 23 kl. 2023

Redigeret og faktatjekket: 23. august 2023 kl. 5:54

Kort sagt

AGI-apokalypsen er en bekymring på grund af fænomenet med store sprogmodeller pludselig demonstrere evner som mindre modeller ikke synes at have.

Dette fænomen kaldes "store sprogmodellers nye evner."

Forfatterne til artiklen "Are Emergent Abilities of Large Language Models a Mirage?" hævder, at effekten af nye evner ikke er et fatamorgana, men snarere en forudsigelig vækst i evnen til at udføre opgaver.

De viser, at mindst 92 % af Big Bench-problemerne ikke får et pludseligt gennembrud for store modeller, og kvaliteten af deres modeller vokser jævnt og forudsigeligt i takt med, at modellernes størrelse øges.

I en nylig undersøgelse af de potentielle muligheder ved store sprogmodeller udfordrer forskere begrebet "emerging abilities" og kaster lys over et mere forudsigeligt aspekt af deres funktionalitet. Artiklen med titlen "Afsløring af realiteterne af store sprogmodellers nye evner” gør opmærksom på fejlfortolkningen af metrikker, der har ført til den misforståelse, at disse modeller spontant tilegner sig avancerede færdigheder.

Forskere udfordrer forestillingen om 'emerging Abilities' af store sprogmodeller — Credit: Metaverse Post / Stable Diffusion

Begrebet "nye evner” i forbindelse med store sprogmodeller, som f.eks GPT serie, har givet anledning til bekymringer med hensyn til potentialet for disse modeller til at udvikle uforudsete egenskaber, der ligner menneskelig bevidsthed. Dette papir hævder, at disse antagelser er baseret på en mangelfuld forståelse af modellernes faktiske adfærd og muligheder.

Det almindeligt observerede fænomen, hvor større modeller tilsyneladende tilegner sig nyfundne evner såsom abstrakt ræsonnement, problemløsning og endda humor, er blevet opfundet som "store sprogmodellers nye evner." Artiklens forfattere hævder, at disse evner ikke er så spontane, som de ser ud, men snarere et resultat af vildledende evalueringsmetrikker.

For at illustrere deres pointe betragter forskerne opgaven med at "gæt gåden", et problem, hvor sprogmodellen er påkrævet for at forstå en naturlig sproggåde og svare med det rigtige svar i naturligt sprog. Traditionelt er kvaliteten af svar blevet evalueret ved hjælp af en binær metrik: et svar tildeles en score på 1, hvis den nøjagtigt matcher det korrekte svar, og en score på 0 ellers.

Sagens kerne ligger i metrikkens følsomhed over for opgavens kompleksitet og antallet af modelparametre. Forskerne afslører, at denne binære metrik fører til en vildledende opfattelse af "fremvoksende evner". Mindre modeller udviser ofte ubetydelig nøjagtighed (eps) på denne metrik, mens større modeller, især dem med et højt parameterantal, ser ud til at opnå bemærkelsesværdige nøjagtighedsniveauer (acc > 0.5).

Artiklen hævder, at dette tilsyneladende skift i evner ikke er tegn på, at modeller spontant tilegner sig komplekse færdigheder. I stedet stammer modellernes evne til at forstå og generere mere nuancerede svar fra en mere omhyggelig evaluering af deres output. Ved at fokusere på probabilistisk matchning og semantisk sammenhæng frem for nøjagtige strengmatches, viser forskerne, at modellernes progression i performance følger en mere logisk bane, uanset deres størrelse.

Relaterede: Udviklingen af chatbots fra T9-Era og GPT-1 til ChatGPT

Undersøgelse af modelydelsesudvikling med skiftende parametre

I en analytisk undersøgelse afslører forskere den subtile mekanik bag de opfattede "emerging abilities" hos store sprogmodeller. Undersøgelsen sætter spørgsmålstegn ved indflydelsen af superdiskrete metrikker i evalueringen af modellens ydeevne og belyser en mere forudsigelig forståelse af deres muligheder, efterhånden som modelparametrene udvides.

Den fremherskende forestilling om "emerging abilities" i ekspansive sprogmodeller har fængslet diskussioner og rejst bekymringer om potentielle gennembrud. Denne undersøgelse søger at afvikle mekanikken bag dette fænomen og afkode, om disse modeller faktisk udviser pludselige, hidtil usete evner, eller om disse opfattede fremskridt kan tilskrives en anden årsag.

Kernen i undersøgelsen ligger en omhyggelig evaluering af de målinger, der bruges til at måle modellens ydeevne. Forskerne hævder, at brugen af superdiskrete metrikker, især den konventionelle binære metrik, der bestemmer nøjagtige strengmatches, kan forvrænge fortolkningen af store sprogmodel evner. Undersøgelsen analyserer omhyggeligt, hvordan sandsynlighedsfordelingen af modelgenererede svar udvikler sig som modelparameterskalaen.

I modsætning til forestillingen om "emerging abilities" afslører undersøgelsen en mere systematisk tendens. Efterhånden som modellens størrelse øges, forbedres dens evne til at tildele højere sandsynlighed til passende svar og lavere sandsynlighed til forkerte. Dette afspejler en konsekvent forbedring af modellens kapacitet til at løse problemer dygtigt over en bred vifte af størrelser. I det væsentlige tyder forskningen på, at modellernes læreproces følger en vel-defined bane for forbedring snarere end et pludseligt spring.

Forfatterne introducerer et paradigmeskifte ved at foreslå udskiftning af diskrete metrikker med kontinuerlige. Denne ændring giver et klarere billede af præstationsudviklingen. Gennem deres analyse konstaterer forskerne, at cirka 92 % af Big Bench problemer udviser en jævn og forudsigelig vækst i kvalitet, efterhånden som modelstørrelsen udvides. Denne konstatering udfordrer forestillingen om, at større modeller oplever pludselige gennembrud og fremhæver i stedet en mere gradvis og forventet progression.

Undersøgelsen udvider sin indsigt for at validere dens påstande. Det demonstrerer, at den samme "emerging ability"-effekt kan simuleres kunstigt ved hjælp af konventionelle autoencodere, hvilket tyder på, at valget af metrikker i væsentlig grad påvirker de opfattede resultater. Denne åbenbaring udvider omfanget af undersøgelsens implikationer og viser dens relevans ud over sprogmodeller alene.

Forskerne understreger, at det gør deres resultater ikke definitivt negere potentialet for "emerging abilities" eller bevidsthed i store sprogmodeller. Men deres resultater tilskynder forskere til at nærme sig sådanne påstande med et nuanceret perspektiv. I stedet for hastigt at ekstrapolere og danne ekstreme konklusioner, understreger undersøgelsen vigtigheden af omhyggelig undersøgelse og omfattende analyse.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov