Nieuwsverslag Technologie
20 juli 2023

Stanfords studie bevestigt dit GPT-4 Wordt dommer

In het kort

Een onderzoek door Matei Zaharia en zijn team van Stanford en UC Berkeley vergeleek de prestaties van GPT-4 en ChatGPT om de zorgen van gebruikers over de effectiviteit van het model weg te nemen.

De studie evalueerde de modellen op vier specifieke taken: wiskunde, coderen, gevoeligheid en visueel redeneren.

Matei Zaharia en zijn team van Stanford en UC Berkeley een onderzoek uitgevoerd die de prestaties vergeleek van GPT-4 naar ChatGPT. Met dit onderzoek werd getracht tegemoet te komen aan de zorgen van gebruikers dat de effectiviteit van het model was afgenomen.

Stanfords studie bevestigt dit GPT-4 Wordt dommer
credit: Metaverse Post
Verwant: GPT-4 vs GPT-3: Wat heeft het nieuwe model te bieden?

De onderzoekers ontwierpen de studie om de modellen op vier specifieke taken te evalueren. Deze taken omvatten:

  • Wiskunde: het vermogen van het model om te bepalen of een bepaald getal een priemgetal of een samengesteld getal is.
  • Codering: beoordelen van het vermogen van het model om zinvolle en functionele code te genereren.
  • Gevoeligheid: het analyseren van de antwoorden van het model op vragen met potentieel "toxische" inhoud.
  • Visueel redeneren: testen van de geschiktheid van het model voor het oplossen van problemen met visuele patronen, met behulp van de ARC-benchmark. Deelnemers moesten patronen in een reeks afbeeldingen identificeren en deze toepassen om een ​​nieuw voorbeeld op te lossen.

Op het gebied van de wiskunde allebei GPT-4 versies, de releases van maart en juni, vertoonden een consistente nauwkeurigheid bij het bepalen van priemgetallen en samengestelde getallen. De modellen toonden vaardigheid in het omgaan met deze berekeningen en leverden betrouwbare resultaten op.

We gaan verder met coderen, GPT-4 vertoonde een verbeterd vermogen om betekenisvolle en functionele code te genereren in vergelijking met zijn voorgangers. De mogelijkheden voor het genereren van code van het model waren veelbelovend en boden potentiële voordelen voor ontwikkelaars en programmeurs.

Wat de gevoeligheid betreft, beoordeelde het onderzoek de antwoorden van de modellen op vragen die potentieel schadelijke of aanstootgevende inhoud bevatten. GPT-4 toonde een verbeterde gevoeligheidsanalyse aan en vertoonde een verbeterd vermogen om in dergelijke contexten passende antwoorden te geven. Dit betekent een positieve stap voorwaarts in het wegnemen van de zorgen van gebruikers over mogelijk problematische resultaten.

Ten slotte werden de visueel redeneertaken op basis van de ARC-benchmark door beiden met succes voltooid GPT-4 versies. De modellen identificeerden effectief patronen binnen beeldsets en demonstreerden het vermogen om deze patronen toe te passen om nieuwe voorbeelden op te lossen. Dit toont hun vermogen tot visueel begrip en redeneren aan.

De resultaten geven aan dat GPT-4 vertoonde een afname in nauwkeurigheid, met slechts iets meer dan 2% correcte antwoorden. Het is belangrijk op te merken dat deze specifieke test in de eerste plaats het vermogen van het model beoordeelt om gegevens op te roepen, in plaats van de inherente wiskundige vaardigheden ervan te demonstreren. De taak draait om het oproepen van herinneringen, omdat het model niet in staat is berekeningen te valideren en gevolgtrekkingen te maken, vooral als het om priemgetallen gaat.

ChatGPT toonde in juni een substantiële groei in prestatiestatistieken, met een opmerkelijke verbetering van meer dan het tienvoudige. Hoewel de studie zich niet heeft verdiept in de specifieke factoren die bijdragen aan deze verbetering, benadrukt het wel ChatGPT's vooruitgang in wiskundig redeneren en probleemoplossend vermogen.

De studie heeft de kwaliteit of correctheid van de gegenereerde code niet beoordeeld. In plaats daarvan leken de modellen een meer "aangepast" gedrag te vertonen, waarbij ze codefragmenten aanboden zonder hun functionele nauwkeurigheid te garanderen.
Verwant: 10+ beste AI-fotoversterkers in 2023

De kwaliteit van GPT-4 en ChatGPT is in twijfel getrokken na een analyse van hun programmeercapaciteiten. Een nadere blik onthult echter enkele fascinerende nuances die in tegenspraak zijn met de eerste indrukken.

De auteurs hebben de code niet uitgevoerd of gecontroleerd op juistheid; hun beoordeling was uitsluitend gebaseerd op de geldigheid ervan als Python-code. Bovendien leken de modellen een specifieke codeframingtechniek te hebben geleerd met behulp van een decorateur, die onbedoeld de uitvoering van code belemmerde.

Als gevolg hiervan wordt duidelijk dat noch de uitkomsten, noch het experiment zelf kunnen worden beschouwd als bewijs van modeldegradatie. In plaats daarvan demonstreren de modellen een andere benadering voor het genereren van reacties, mogelijk als gevolg van variaties in hun training.

Een onderzoek naar de programmeer- en rekenvaardigheden van GPT-4 en ChatGPT heeft interessante bevindingen opgeleverd. In tegenstelling tot de aanvankelijke aannames, vertoonden de modellen opmerkelijke verbeteringen op bepaalde gebieden, terwijl ze gedragsveranderingen vertoonden op andere.

Als het gaat om programmeertaken, lieten beide modellen een afname zien in het reageren op ‘verkeerde’ aanwijzingen GPT-4 in dergelijke gevallen een meer dan viervoudige reductie vertonen. Bovendien verbeterde de kwaliteit van de antwoorden bij de visueel redeneren-taak voor beide modellen met een paar procentpunten. Deze observaties duiden eerder op vooruitgang dan op verslechtering van de prestaties.

De beoordeling van wiskundige vaardigheden introduceert echter een intrigerend element. De modellen gaven consequent priemgetallen als antwoorden, wat een consistent "ja" antwoord aangeeft. Maar bij het introduceren van samengestelde getallen in de steekproef, werd het duidelijk dat de modellen hun gedrag veranderden en 'nee'-antwoorden begonnen te geven, wat eerder onzekerheid dan een achteruitgang in kwaliteit suggereerde. De test zelf is eigenaardig en eenzijdig, en de resultaten kunnen eerder worden toegeschreven aan verschuivingen in modelgedrag dan aan een achteruitgang in kwaliteit.

Het is belangrijk op te merken dat de API-versies zijn getest en niet de browserversies. Hoewel het mogelijk is dat de modellen in de browser aanpassingen hebben ondergaan om bronnen te optimaliseren, doet de bijgevoegde studie dat niet defideze hypothese definitief bewijzen. De impact van dergelijke verschuivingen kan vergelijkbaar zijn met daadwerkelijke modeldowngrades, wat kan leiden tot potentiële uitdagingen voor gebruikers die afhankelijk zijn van specifiek werk prompts en opgebouwde ervaring.

Bij GPT-4 API-toepassingen kunnen deze gedragsafwijkingen tastbare gevolgen hebben. Code die is ontwikkeld op basis van de behoeften en taken van een specifieke gebruiker, functioneert mogelijk niet meer zoals bedoeld als het gedrag van het model verandert.

Het wordt aanbevolen dat gebruikers vergelijkbare testpraktijken in hun workflows opnemen. Door een reeks prompts, begeleidende teksten en verwachte resultaten te maken, kunnen gebruikers regelmatig controleren op consistentie tussen hun verwachtingen en de antwoorden van het model. Zodra afwijkingen worden geconstateerd, kunnen passende maatregelen worden genomen om de situatie recht te zetten.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Nexo initieert 'The Hunt' om gebruikers te belonen met $12 miljoen aan NEXO-tokens voor betrokkenheid bij zijn ecosysteem
Markten Nieuwsverslag Technologie
Nexo initieert 'The Hunt' om gebruikers te belonen met $12 miljoen aan NEXO-tokens voor betrokkenheid bij zijn ecosysteem
8 mei 2024
Revolut's Revolut X Exchange verleidt cryptohandelaren met nulmakerkosten en geavanceerde analyses
Markten Software Verhalen en recensies Technologie
Revolut's Revolut X Exchange verleidt cryptohandelaren met nulmakerkosten en geavanceerde analyses
8 mei 2024
Crypto-handelsplatform BitMEX introduceert handel in opties zonder kosten en contante prikkels
Business Markten Nieuwsverslag
Crypto-handelsplatform BitMEX introduceert handel in opties zonder kosten en contante prikkels
8 mei 2024
Lisk stapt officieel over naar Ethereum Layer 2 en onthult Core v4.0.6
Nieuwsverslag Technologie
Lisk stapt officieel over naar Ethereum Layer 2 en onthult Core v4.0.6
8 mei 2024