Advies Technologie
23 Augustus 2023

Onderzoekers betwisten het idee van 'opkomende vaardigheden' van grote taalmodellen

In het kort

De AGI-apocalyps is zorgwekkend vanwege het plotselinge fenomeen van grote taalmodellen capaciteiten demonstreren die kleinere modellen niet lijken te hebben.

Dit fenomeen wordt ‘opkomende vaardigheden van grote taalmodellen’ genoemd.

De auteurs van het artikel “Are Emergent Abilities of Large Language Models a Mirage?” betogen dat het effect van opkomende vaardigheden geen luchtspiegeling is, maar eerder een voorspelbare groei in het vermogen om taken uit te voeren.

Ze laten zien dat ten minste 92% van de Big Bench-problemen geen plotselinge doorbraak kent voor grote modellen, en dat de kwaliteit van hun modellen soepel en voorspelbaar groeit naarmate de omvang van de modellen toeneemt.

In een recent onderzoek naar de potentiële mogelijkheden van grote taalmodellen stellen onderzoekers het idee van ‘opkomende vaardigheden’ ter discussie en werpen ze licht op een meer voorspelbaar aspect van hun functionaliteit. Het artikel met de titel “Onthulling van de realiteit van de opkomende vaardigheden van grote taalmodellen” vestigt de aandacht op de verkeerde interpretatie van metrieken die heeft geleid tot de misvatting dat deze modellen spontaan geavanceerde vaardigheden verwerven.

Onderzoekers betwisten het idee van 'opkomende vaardigheden' van grote taalmodellen
credit: Metaverse Post / Stable Diffusion

Het concept van "opkomende vaardigheden”in de context van grote taalmodellen, zoals de GPT serie, heeft zorgen aangewakkerd over het potentieel van deze modellen om onvoorziene vermogens te ontwikkelen die vergelijkbaar zijn met het menselijk bewustzijn. Dit artikel beweert dat deze aannames gebaseerd zijn op een gebrekkig begrip van het feitelijke gedrag en de mogelijkheden van de modellen.

Het vaak waargenomen fenomeen, waarbij grotere modellen schijnbaar nieuwe vaardigheden verwerven, zoals abstract redeneren, probleemoplossing en zelfs humor, wordt wel de ‘opkomende vaardigheden van grote taalmodellen’ genoemd. De auteurs van het artikel beweren dat deze vaardigheden niet zo spontaan zijn als ze lijken, maar eerder het resultaat zijn van misleidende evaluatiegegevens.

Om hun punt te illustreren beschouwen de onderzoekers de taak van ‘raad het raadsel’, een probleem waarbij het taalmodel nodig is om een ​​raadsel in natuurlijke taal te begrijpen en te reageren met het juiste antwoord in natuurlijke taal. Traditioneel wordt de kwaliteit van de antwoorden geëvalueerd met behulp van een binaire metriek: een antwoord krijgt een score van 1 als het exact overeenkomt met het juiste antwoord, en anders een score van 0.

De kern van de zaak ligt in de gevoeligheid van de metriek voor de complexiteit van de taak en het aantal modelparameters. De onderzoekers onthullen dat deze binaire metriek leidt tot a bedrieglijke perceptie van ‘opkomende vaardigheden’. Kleinere modellen vertonen vaak een verwaarloosbare nauwkeurigheid (eps) op deze metriek, terwijl grotere modellen, vooral die met een hoog aantal parameters, opmerkelijke nauwkeurigheidsniveaus lijken te bereiken (acc > 0.5).

Het artikel stelt dat deze schijnbare verschuiving in vaardigheden niet indicatief is voor modellen die spontaan complexe vaardigheden verwerven. In plaats daarvan komt het vermogen van de modellen om genuanceerdere reacties te begrijpen en te genereren voort uit een nauwgezettere evaluatie van hun resultaten. Door zich te concentreren op probabilistische matching en semantische coherentie in plaats van exacte stringmatches, laten de onderzoekers zien dat de progressie van modellen in prestaties volgt een logischer traject, ongeacht hun omvang.

Verwant: De evolutie van chatbots uit het T9-tijdperk en GPT-1 naar ChatGPT

Onderzoek naar de evolutie van modelprestaties met veranderende parameters

Onderzoek naar de evolutie van modelprestaties met veranderende parameters
credit: Metaverse Post / Stable Diffusion

In een analytisch onderzoek ontdekken onderzoekers de subtiele mechanismen achter de waargenomen ‘opkomende vaardigheden’ van mensen grote taalmodellen. De studie stelt de invloed van superdiscrete metrieken bij het evalueren van modelprestaties in vraag en verheldert een meer voorspellend begrip van hun mogelijkheden naarmate modelparameters zich uitbreiden.

Het heersende idee van ‘opkomende vaardigheden’ in uitgebreide taalmodellen heeft discussies geboeid en zorgen doen rijzen over mogelijke doorbraken. Deze studie probeert de mechanismen die aan dit fenomeen ten grondslag liggen te ontwarren en te ontcijferen of deze modellen inderdaad plotselinge, ongekende capaciteiten vertonen of dat deze waargenomen vooruitgang aan een andere oorzaak kan worden toegeschreven.

De kern van het onderzoek ligt in een nauwgezette evaluatie van de meetgegevens die worden gebruikt om de prestaties van het model te meten. De onderzoekers beweren dat het gebruik van superdiscrete metrieken, met name de conventionele binaire metriek die exacte stringmatches bepaalt, de interpretatie van grote data kan vertekenen. taalmodelvaardigheden. De studie analyseert nauwgezet hoe de waarschijnlijkheidsverdeling van door modellen gegenereerde antwoorden evolueert naarmate de modelparameters schalen.

In tegenstelling tot het idee van ‘opkomende vaardigheden’ onthult de studie een meer systematische trend. Naarmate de omvang van het model toeneemt, verbetert het vermogen om hogere kansen toe te kennen aan juiste antwoorden en lagere kansen aan onjuiste antwoorden. Dit weerspiegelt een consistente verbetering van het vermogen van het model om problemen op een bekwame manier op te lossen over een breed scala aan formaten. In wezen suggereert het onderzoek dat het leerproces van de modellen een goeddefieen traject van verbetering in plaats van een plotselinge sprong.

De auteurs introduceren een paradigmaverschuiving door de vervanging van discrete metrieken door continue metrieken voor te stellen. Deze verandering biedt een duidelijker beeld van de prestatie-evolutie. Door hun analyse stellen de onderzoekers vast dat ongeveer 92% van de Big Ben-problemen vertonen een soepele en voorspelbare groei in kwaliteit naarmate de modelgrootte groter wordt. Deze bevinding daagt het idee uit dat grotere modellen plotselinge doorbraken ervaren en benadrukt in plaats daarvan een meer geleidelijke en verwachte progressie.

De studie breidt haar inzichten uit om haar beweringen te valideren. Het toont aan dat hetzelfde effect van ‘opkomend vermogen’ kunstmatig kan worden gesimuleerd met behulp van conventionele autoencoders, wat suggereert dat de keuze van de metrieken de waargenomen resultaten aanzienlijk beïnvloedt. Deze onthulling verbreedt de reikwijdte van de implicaties van het onderzoek en demonstreert de relevantie ervan die verder gaat dan alleen taalmodellen.

De onderzoekers benadrukken dat hun resultaten dat niet doen defihet potentieel voor ‘opkomende vermogens’ of bewustzijn in grote taalmodellen op nive wijze tenietdoen. Hun bevindingen moedigen onderzoekers echter aan om dergelijke claims vanuit een genuanceerd perspectief te benaderen. In plaats van overhaast te extrapoleren en extreme conclusies te trekken, onderstreept het onderzoek het belang van nauwgezet onderzoek en uitgebreide analyse.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
SEC sluit Ethereum 2.0-onderzoek af, wat wijst op een positief resultaat voor de Ethereum-gemeenschap
Business Nieuwsverslag Technologie
SEC sluit Ethereum 2.0-onderzoek af, wat wijst op een positief resultaat voor de Ethereum-gemeenschap
19 June 2024
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
markten Nieuwsverslag Technologie
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
18 June 2024
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
Nieuwsverslag Technologie
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
18 June 2024
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
Advies Business markten Software Technologie
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
18 June 2024