Augusti 23, 2023

Forskare utmanar idén om "framväxande förmågor" hos stora språkmodeller

Publicerad: 23 augusti 2023 kl. 5 Uppdaterad: 54 augusti 23 kl. 2023

Redigerad och faktagranskad: 23 augusti 2023 kl. 5:54

I korthet

AGI-apokalypsen är ett problem på grund av fenomenet med stora språkmodeller plötsligt visa förmågor som mindre modeller inte verkar ha.

Detta fenomen kallas "framväxande förmågor hos stora språkmodeller."

Författarna till artikeln "Are Emergent Abilities of Large Language Models a Mirage?" hävdar att effekten av framväxande förmågor inte är en hägring, utan snarare en förutsägbar tillväxt i förmågan att utföra uppgifter.

De visar att minst 92 % av Big Bench-problemen inte får ett plötsligt genombrott för stora modeller, och kvaliteten på deras modeller växer smidigt och förutsägbart när storleken på modellerna ökar.

I en nyligen genomförd undersökning av de potentiella kapaciteterna hos stora språkmodeller utmanar forskare begreppet "framväxande förmågor" och belyser en mer förutsägbar aspekt av deras funktionalitet. Artikeln med titeln "Avslöja verkligheten av stora språkmodellers framväxande förmågor” uppmärksammar feltolkningen av mått som har lett till missuppfattningen att dessa modeller spontant förvärvar avancerade färdigheter.

Forskare utmanar idén om "framväxande förmågor" hos stora språkmodeller — Credit: Metaverse Post / Stable Diffusion

Konceptet av "framväxande förmågor” i samband med stora språkmodeller, som t.ex GPT serie, har väckt farhågor angående potentialen för dessa modeller att utveckla oförutsedda möjligheter som liknar mänskligt medvetande. Denna artikel hävdar att dessa antaganden har baserats på en bristfällig förståelse av modellernas faktiska beteende och kapacitet.

Det ofta observerade fenomenet, där större modeller till synes förvärvar nyfunna förmågor som abstrakt resonemang, problemlösning och till och med humor, har myntats som "stora språkmodellers framväxande förmågor." Författarna till artikeln hävdar att dessa förmågor inte är så spontana som de verkar, utan snarare ett resultat av missvisande utvärderingsmått.

För att illustrera sin poäng överväger forskarna uppgiften att "gissa gåtan", ett problem där språkmodellen krävs för att förstå en naturlig språkgåta och svara med rätt svar på naturligt språk. Traditionellt har kvaliteten på svaren utvärderats med hjälp av ett binärt mått: ett svar tilldelas poängen 1 om det exakt matchar det korrekta svaret, och poängen 0 annars.

Kärnan i saken ligger i måttets känslighet för uppgiftens komplexitet och antalet modellparametrar. Forskarna avslöjar att detta binära mått leder till en vilseledande uppfattning av "framväxande förmågor". Mindre modeller uppvisar ofta försumbar noggrannhet (eps) på detta mått, medan större modeller, särskilt de med ett högt parameterantal, verkar uppnå anmärkningsvärda noggrannhetsnivåer (acc > 0.5).

Artikeln hävdar att denna uppenbara förändring i förmåga inte är ett tecken på att modeller spontant skaffar sig komplexa färdigheter. Istället härrör modellernas förmåga att förstå och generera mer nyanserade svar från en mer noggrann utvärdering av deras resultat. Genom att fokusera på probabilistisk matchning och semantisk koherens snarare än exakta strängmatchningar, visar forskarna att modellernas utveckling i prestanda följer en mer logisk bana, oavsett deras storlek.

Relaterad: Utvecklingen av chatbots från T9-Era och GPT-1 till ChatGPT

Undersöker modellprestandautveckling med ändrade parametrar

I en analytisk undersökning avslöjar forskare den subtila mekaniken bakom de upplevda "framväxande förmågorna" hos stora språkmodeller. Studien ifrågasätter inflytandet av superdiskreta mätvärden för att utvärdera modellprestanda och belyser en mer prediktiv förståelse av deras kapacitet när modellparametrarna expanderar.

Den rådande föreställningen om "framväxande förmågor" i expansiva språkmodeller har fängslat diskussioner och väckt oro för potentiella genombrott. Denna studie försöker reda ut mekaniken bakom detta fenomen och dechiffrera om dessa modeller verkligen uppvisar plötsliga, aldrig tidigare skådade förmågor eller om dessa upplevda framsteg kan tillskrivas en annan orsak.

Kärnan i studien ligger en noggrann utvärdering av de mått som används för att mäta modellens prestanda. Forskarna hävdar att användningen av superdiskreta mått, särskilt den konventionella binära metriken som bestämmer exakta strängmatchningar, kan förvränga tolkningen av stora språkmodellförmågor. Studien analyserar noggrant hur sannolikhetsfördelningen av modellgenererade svar utvecklas som modellparametrars skala.

I motsats till föreställningen om "framväxande förmågor" avslöjar studien en mer systematisk trend. När modellens storlek ökar, förbättras dess förmåga att tilldela högre sannolikheter till lämpliga svar och lägre sannolikheter till felaktiga. Detta återspeglar en konsekvent förbättring av modellens förmåga att lösa problem på ett skickligt sätt över ett brett spektrum av storlekar. I huvudsak tyder forskningen på att modellernas inlärningsprocess följer en väl-defien förbättringsbana snarare än ett plötsligt språng.

Författarna introducerar ett paradigmskifte genom att föreslå att diskreta mått ersätts med kontinuerliga. Denna förändring ger en tydligare bild av prestandautvecklingen. Genom sin analys konstaterar forskarna att cirka 92 % av Big Bench problem uppvisar en jämn och förutsägbar kvalitetsutveckling när modellstorleken ökar. Detta fynd utmanar föreställningen att större modeller upplever plötsliga genombrott och belyser istället en mer gradvis och förväntad utveckling.

Studien utökar sina insikter för att validera sina påståenden. Det visar att samma "emerging ability"-effekt kan simuleras på konstgjord väg med hjälp av konventionella autokodare, vilket tyder på att valet av mätvärden väsentligt påverkar de upplevda resultaten. Denna uppenbarelse vidgar omfattningen av studiens implikationer och visar dess relevans bortom enbart språkmodeller.

Forskarna understryker att deras resultat inte gör det definativt förneka potentialen för "framväxande förmågor" eller medvetande i stora språkmodeller. Men deras resultat uppmuntrar forskare att närma sig sådana påståenden med ett nyanserat perspektiv. Istället för att snabbt extrapolera och dra extrema slutsatser understryker studien vikten av noggrann undersökning och omfattande analys.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov