Nieuwsverslag Software Technologie
14 Augustus 2024

OpenAI Introduceert SWE-Bench, geverifieerd om de betrouwbaarheid van de evaluatie van AI-modellen te verbeteren

In het kort

OpenAI heeft een door mensen gevalideerde subset van SWE-bench uitgebracht, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeurig te beoordelen.

OpenAI Introduceert SWE-Bench, geverifieerd om de betrouwbaarheid van de evaluatie van AI-modellen te verbeteren

Onderzoeksorganisatie op het gebied van kunstmatige intelligentie OpenAI kondigde de release aan van een door mensen gevalideerde subset van SWE-bench, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeuriger te beoordelen.

SWE-bench is een benchmark die wordt gebruikt om de mogelijkheden van grote taalmodellen (LLM's) te beoordelen bij het aanpakken van echte softwareproblemen afkomstig van GitHub. Het is een veelgebruikt evaluatiehulpmiddel voor software-engineering, waarbij agenten een coderepository en een probleembeschrijving krijgen en de taak hebben een patch te maken om het beschreven probleem op te lossen.

Het wordt gebruikt om het risiconiveau Gemiddeld te monitoren binnen de risicocategorie Modelautonomie van het Preparedness Framework. Het evalueren van catastrofale risiconiveaus hangt af van de betrouwbaarheid van de evaluatieresultaten en een duidelijk begrip van wat de scores vertegenwoordigen.

Het bedrijf heeft SWE-bench Verified uitgebracht in samenwerking met de auteurs van SWE-bench. Deze subset van de originele SWE-bench-testset bevat 500 monsters die door menselijke annotators als niet-problematisch zijn bevestigd. Deze nieuwe versie vervangt zowel de originele SWE-bench als de SWE-bench Lite testsets. Bovendien bevat het menselijke annotaties voor alle SWE-bench-testmonsters.

Daarnaast is er een nieuw evaluatieharnas voor de SWE-bench ontwikkeld. Het maakt gebruik van gecontaineriseerde Docker-omgevingen om de betrouwbaarheid van evaluaties op SWE-bench te vereenvoudigen en te verbeteren.

Met behulp van deze dataset OpenAI geëvalueerd GPT-4o's prestaties met verschillende open-source steigers. Dat hebben ze ontdekt GPT-4o behaalde een score van 33.2% op de SWE-bench, geverifieerd met de best presterende steiger, waardoor de eerdere score van 16% op de originele SWE-bench ruimschoots werd verdubbeld. 

Cosine behaalt een succespercentage van 30% bij het oplossen van programmeerproblemen in de echte wereld GPT-4o Klimt naar de tweede plaats

De uitdagingen in deze benchmark zijn afgeleid van een reeks real-world programmeerproblemen waarvan bekend is dat ze bijzonder lastig zijn voor AI's. In maart meldde startup Cognition AI dat zijn model 14% van deze problemen zou kunnen oplossen. 

Onlangs maakte startup Cosine bekend dat het een slagingspercentage van 30% had behaald, waarmee een nieuw record werd gevestigd. Ondertussen is er een model gebaseerd op OpenAI's GPT-4o bekleedt nu de tweede plaats, vergeleken met de derde plaats in een eerdere versie van de test.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Meer artikelen
Alisa Davidson
Alisa Davidson

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Hot Stories
Schrijf je in op onze nieuwsbrief.
Het laatste nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Lees Verder
Lees meer
DFG, Jsquare, Ticker Capital en Starbase Co-Host Meetup, onthulling Web3 Beleggingstrends tijdens KBW2024
Lifestyle Nieuwsverslag Technologie
DFG, Jsquare, Ticker Capital en Starbase Co-Host Meetup, onthulling Web3 Beleggingstrends tijdens KBW2024
6 september 2024
Binance naar Airdrop USDC naar FRONT- en SLF-houders na voltooiing van token-rebranding
Markten Nieuwsverslag
Binance naar Airdrop USDC naar FRONT- en SLF-houders na voltooiing van token-rebranding
6 september 2024
BNB Chain kondigt vierde TVL-incentiveprogramma aan met $ 300,000 aan beloningen
Featured Nieuwsverslag Technologie
BNB Chain kondigt vierde TVL-incentiveprogramma aan met $ 300,000 aan beloningen
6 september 2024
Miljardendeals: AI-veiligheidsstartup haalt $ 1 miljard op terwijl Nvidia $ 100 miljoen in Japans AI-bedrijf steekt
Verteren Zakelijk Markten Software Technologie
Miljardendeals: AI-veiligheidsstartup haalt $ 1 miljard op terwijl Nvidia $ 100 miljoen in Japans AI-bedrijf steekt
6 september 2024