Nieuwsverslag Software Technologie
August 14, 2024

OpenAI Introduceert SWE-Bench, geverifieerd om de betrouwbaarheid van de evaluatie van AI-modellen te verbeteren

In het kort

OpenAI heeft een door mensen gevalideerde subset van SWE-bench uitgebracht, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeurig te beoordelen.

OpenAI Introduceert SWE-Bench, geverifieerd om de betrouwbaarheid van de evaluatie van AI-modellen te verbeteren

Onderzoeksorganisatie op het gebied van kunstmatige intelligentie OpenAI kondigde de release aan van een door mensen gevalideerde subset van SWE-bench, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeuriger te beoordelen.

SWE-bench is een benchmark die wordt gebruikt om de mogelijkheden van grote taalmodellen (LLM's) te beoordelen bij het aanpakken van echte softwareproblemen afkomstig van GitHub. Het is een veelgebruikt evaluatiehulpmiddel voor software-engineering, waarbij agenten een coderepository en een probleembeschrijving krijgen en de taak hebben een patch te maken om het beschreven probleem op te lossen.

Het wordt gebruikt om het risiconiveau Gemiddeld te monitoren binnen de risicocategorie Modelautonomie van het Preparedness Framework. Het evalueren van catastrofale risiconiveaus hangt af van de betrouwbaarheid van de evaluatieresultaten en een duidelijk begrip van wat de scores vertegenwoordigen.

Het bedrijf heeft SWE-bench Verified uitgebracht in samenwerking met de auteurs van SWE-bench. Deze subset van de originele SWE-bench-testset bevat 500 monsters die door menselijke annotators als niet-problematisch zijn bevestigd. Deze nieuwe versie vervangt zowel de originele SWE-bench als de SWE-bench Lite testsets. Bovendien bevat het menselijke annotaties voor alle SWE-bench-testmonsters.

Daarnaast is er een nieuw evaluatieharnas voor de SWE-bench ontwikkeld. Het maakt gebruik van gecontaineriseerde Docker-omgevingen om de betrouwbaarheid van evaluaties op SWE-bench te vereenvoudigen en te verbeteren.

Met behulp van deze dataset OpenAI geëvalueerd GPT-4o's prestaties met verschillende open-source steigers. Dat hebben ze ontdekt GPT-4o behaalde een score van 33.2% op de SWE-bench, geverifieerd met de best presterende steiger, waardoor de eerdere score van 16% op de originele SWE-bench ruimschoots werd verdubbeld. 

Cosine behaalt een succespercentage van 30% bij het oplossen van programmeerproblemen in de echte wereld GPT-4o Klimt naar de tweede plaats

De uitdagingen in deze benchmark zijn afgeleid van een reeks real-world programmeerproblemen waarvan bekend is dat ze bijzonder lastig zijn voor AI's. In maart meldde startup Cognition AI dat zijn model 14% van deze problemen zou kunnen oplossen. 

Onlangs maakte startup Cosine bekend dat het een slagingspercentage van 30% had behaald, waarmee een nieuw record werd gevestigd. Ondertussen is er een model gebaseerd op OpenAI's GPT-4o bekleedt nu de tweede plaats, vergeleken met de derde plaats in een eerdere versie van de test.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Meer artikelen
Alisa Davidson
Alisa Davidson

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Hot Stories

7 projecten die crypto in 2025 beginnersvriendelijk maken

by Alisa Davidson
November 15, 2025
Schrijf je in op onze nieuwsbrief.
Latest News

7 projecten die crypto in 2025 beginnersvriendelijk maken

by Alisa Davidson
November 15, 2025

De rust voor de Solana-storm: wat grafieken, walvissen en on-chain signalen nu zeggen

Solana heeft sterke prestaties geleverd, gedreven door toenemende acceptatie, institutionele interesse en belangrijke partnerschappen, terwijl ze ook te maken had met potentiële ...

Meer weten

Crypto in april 2025: belangrijke trends, verschuivingen en wat er daarna komt

In april 2025 richtte de cryptowereld zich op het versterken van de kerninfrastructuur, waarbij Ethereum zich voorbereidde op de Pectra ...

Meer weten
Meer informatie
Lees meer
TradeXYZ, Ventuals en Felix Protocol lanceren HIP-3 en introduceren toestemmingsloze, eeuwigdurende markten op hyperliquide
Nieuwsverslag Technologie
TradeXYZ, Ventuals en Felix Protocol lanceren HIP-3 en introduceren toestemmingsloze, eeuwigdurende markten op hyperliquide
November 17, 2025
10 AI-aangedreven cryptovoorspellingstools voor gebruik in 2025
Toplijsten Nieuwsverslag Technologie
10 AI-aangedreven cryptovoorspellingstools voor gebruik in 2025
November 16, 2025
7 projecten die crypto in 2025 beginnersvriendelijk maken
Toplijsten Nieuwsverslag Technologie
7 projecten die crypto in 2025 beginnersvriendelijk maken
November 15, 2025
Bitcoin duikt onder de $95: er zijn bearish signalen, maar veerkracht suggereert een 'afwachtende' houding
Markten Nieuwsverslag Technologie
Bitcoin duikt onder de $95: er zijn bearish signalen, maar veerkracht suggereert een 'afwachtende' houding
November 14, 2025