Nieuwsverslag Technologie
15 maart 2023

GPT-4 presteert beter GPT-3.5 Over de hele linie op een verscheidenheid aan studiebenchmarks

In het kort

De GPT-4 heeft een hogere graaddrempel bereikt dan de GPT-3.5 op verschillende benchmarks.

Dit is een belangrijke prestatie omdat het laat zien dat machines niet alleen in staat zijn tot mensachtige intelligentie, maar ook beter kunnen presteren dan wij, wat vragen oproept over de toekomst van AI en de mogelijke impact ervan op de arbeidsmarkt.

GPT-4 wordt aanzienlijk beter gepresteerd door state-of-the-art (SOTA)-modellen, inclusief modellen die aanvullende trainingsprotocollen of benchmark-specifiek ontwerp gebruiken, evenals bestaande grote taalmodellen.

De GPT-4 heeft hogere scores behaald dan de GPT-3.5 op verschillende benchmarks. Dit is een grote doorbraak voor machines, omdat het bewijst dat ze nu niet alleen problemen kunnen oplossen waarvoor ze oorspronkelijk zijn ontworpen, maar dat ze dat ook beter kunnen dan universiteitsstudenten.

GPT-4 beter presteert GPT-3.5 over de hele linie op verschillende onderzoeksbenchmarks

Er zijn een paar dingen waarmee u rekening moet houden als u naar dit resultaat kijkt. In de eerste plaats de GPT-4 heeft voor deze examens geen specifieke opleiding gevolgd. Hiervoor werd gebruik gemaakt van de meest recente openbaar beschikbare tests (in het geval van de gratis antwoordvragen van de Olympiades en AP) of door edities van oefenexamens 2022-2023 aan te schaffen. In de tweede plaats is het belangrijk op te merken dat de GPT-4De prestaties van de test weerspiegelen mogelijk niet noodzakelijkerwijs de capaciteiten van menselijke testpersonen, omdat deze op basis van een andere reeks principes en algoritmen werkt.

Dit is een grote prestatie als het laat zien dat machines niet alleen in staat zijn tot mensachtige intelligentie, maar ook beter kunnen presteren dan wij. Dit maakt de weg vrij voor een toekomst waarin machines steeds complexere taken op zich kunnen nemen, wat uiteindelijk leidt tot een toekomst waarin ze ons kunnen helpen in ons dagelijks leven.

De GPT-4's vermogen om bij bepaalde taken beter te presteren dan mensen roept vragen op over de toekomst van kunstmatige intelligentie en de mogelijke impact op de arbeidsmarkt. Het benadrukt ook de noodzaak van verder onderzoek en ontwikkeling op dit gebied om ervoor te zorgen dat AI ethisch en verantwoord wordt gebruikt.
Lees verder: 5+ meest verwachte Text-to-Image AI-modellen van 2023

GPT-4bijvoorbeeld slaagt voor een gesimuleerd bar-examen met een score in de top 10% van de kandidaten; GPT-3De score van .5 bevond zich in de onderste 10%. Deze aanzienlijke verbetering van GPT-4De prestaties van het apparaat zijn te danken aan de grotere trainingsgegevens en de verbeterde architectuur. Er wordt verwacht dat het een breed scala aan toepassingen zal hebben op verschillende gebieden, waaronder natuurlijke taalverwerking en geautomatiseerd schrijven.

 
GPT-4 vertoont prestaties op menselijk niveau op de meeste van deze professionele en academische examens. Het is met name geslaagd voor een gesimuleerde versie van het Uniform Bar Examination, met een score in de top 10% van de testpersonen. De mogelijkheden van het model op examens lijken voornamelijk voort te komen uit het pre-trainingsproces en worden niet significant beïnvloed door RLHF. Op meerkeuzevragen, zowel de basis GPT-4 het model en het RLHF-model presteerden gemiddeld even goed voor de ontwikkelaars van het geteste examen.

De meeste state-of-the-art (SOTA) modellen, inclusief modellen die aanvullende trainingsprotocollen of benchmark-specifiek ontwerp kunnen gebruiken, evenals bestaande grote taalmodellen, worden aanzienlijk beter gepresteerd door GPT-4.

GPT-4's prestaties in termen van academische normen. Ontwikkelaars contrasteren GPT-4 met de beste SOTA voor een LM-geëvalueerde paar schoten en de beste SOTA met benchmark-specifieke training. Met uitzondering van DROP, GPT-4 presteert beter dan alle huidige LM's op alle benchmarks en SOTA met benchmark-specifieke training.

Intern hebben ontwikkelaars gebruik gemaakt van GPT-4, wat een aanzienlijke impact heeft gehad op activiteiten zoals programmeren, verkoop, ondersteuning en contentmoderatie. De tweede fase van onze uitlijningsmethode is nu aan de gang, aangezien ontwikkelaars deze gebruiken om mensen te helpen bij het beoordelen van AI-resultaten.

MMLU (Massive Multi-Task Language Understanding) dataset bevat vragen uit een zeer breed scala aan onderwerpen over taalbegrip in verschillende taken (verspreid over 57 domeinen, waaronder wiskunde, biologie, rechten, sociale en menswetenschappen, enz.). Er zijn vier mogelijke antwoorden op de vraag, waarvan er één correct is. Dat wil zeggen, willekeurig raden toont een resultaat van 25% juiste antwoorden. Zie onderstaande afbeelding voor voorbeelden van vragen en hun moeilijkheden. De gemiddelde persoon-marker (dat wil zeggen, dit is geen wetenschapper, geen professor - een gewoon persoon die maanlicht als opmaak) beantwoordt correct op 35% van de vragen; de experts kunnen echter een score van +/- 90% behalen.

Prestaties van GPT-4 in een reeks talen vergeleken met eerdere modellen in het Engels op MMLU. GPT-4 overtreft de Engelstalige prestaties van bestaande taalmodellen voor de grote meerderheid van de onderzochte talen, inclusief talen met weinig hulpmiddelen zoals Lets, Welsh en Swahili.
Lees verder: 5 redenen om AI-aangedreven Bing via Google te gebruiken

Oorspronkelijk was de gehele dataset in het Engels. Maar wat als vragen en antwoorden in andere talen worden vertaald, vooral in de minder gebruikelijke talen? Zal het model op de een of andere manier voor hen werken? In deze test werd voor de vertaling de dienst Microsoft Azure Translate gebruikt. Vertalingen zijn niet perfect; in sommige gevallen gaat belangrijke informatie verloren. Maar zelfs in dit geval is de GPT-4 presteert goed in andere talen. In de vertaalde versies van de MMLU, GPT-4 presteert in 24 van de 26 onderzochte talen beter dan het Engelse niveau van andere grote modellen (waaronder die van Google).

Wat nog meer, GPT-4 presteert beter in zeldzame talen dan ChatGPT deed in het Engels (ChatGPT behaalde een score van 70.1%, terwijl de score van het nieuwe model voor Thai 71.8% bedroeg. De score voor de toets Engels was het hoogst, met GPT-4 presteert 10% beter dan andere modellen, inclusief de grootste PaLM van Google. Het behaalde een score van 86.4%, terwijl een groep experts 90% behaalde.

  • Tegen de zomer van 2023 zou AI dankzij ChatGPT, een chatbot die gebruik maakt van de GPT-4 algoritme en beter presteert GPT-3 met een factor 570. Verschillende elementen dragen daaraan bij ChatGPT's succes, inclusief het ontwerp om meer "menselijk" te zijn en het gebruik van geavanceerde datamining en natuurlijke taalverwerking om de effectiviteit en nauwkeurigheid te vergroten.
  • Microsoft en OpenAI kondigden hun samenwerkingsvernieuwing aan en plannen voor Bing Search om in januari AI-verbeterde opzoekmogelijkheden te adopteren. De zeer verfijnde GPT3.5 vervanging van het model, GPT4, is net gelanceerd, en het heeft het potentieel om het vermogen van Bing Search aanzienlijk te verbeteren om zoekopdrachten in natuurlijke taal te begrijpen en nauwkeurigere resultaten te leveren. Het is een goed idee om een ​​goed back-upplan te hebben voor het geval er iets misgaat.

Lees meer gerelateerd nieuws:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
Business Nieuwsverslag Technologie
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
3 mei 2024
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
Markten Nieuwsverslag Technologie
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
3 mei 2024
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
Markten Nieuwsverslag Technologie
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
3 mei 2024
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
Business Nieuwsverslag Technologie
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
3 mei 2024