OpenAI Introduceert SWE-Bench, geverifieerd om de betrouwbaarheid van de evaluatie van AI-modellen te verbeteren
In het kort
OpenAI heeft een door mensen gevalideerde subset van SWE-bench uitgebracht, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeurig te beoordelen.
Onderzoeksorganisatie op het gebied van kunstmatige intelligentie OpenAI kondigde de release aan van een door mensen gevalideerde subset van SWE-bench, ontworpen om het vermogen van AI-modellen om echte softwareproblemen op te lossen nauwkeuriger te beoordelen.
SWE-bench is een benchmark die wordt gebruikt om de mogelijkheden van grote taalmodellen (LLM's) te beoordelen bij het aanpakken van echte softwareproblemen afkomstig van GitHub. Het is een veelgebruikt evaluatiehulpmiddel voor software-engineering, waarbij agenten een coderepository en een probleembeschrijving krijgen en de taak hebben een patch te maken om het beschreven probleem op te lossen.
Het wordt gebruikt om het risiconiveau Gemiddeld te monitoren binnen de risicocategorie Modelautonomie van het Preparedness Framework. Het evalueren van catastrofale risiconiveaus hangt af van de betrouwbaarheid van de evaluatieresultaten en een duidelijk begrip van wat de scores vertegenwoordigen.
Het bedrijf heeft SWE-bench Verified uitgebracht in samenwerking met de auteurs van SWE-bench. Deze subset van de originele SWE-bench-testset bevat 500 monsters die door menselijke annotators als niet-problematisch zijn bevestigd. Deze nieuwe versie vervangt zowel de originele SWE-bench als de SWE-bench Lite testsets. Bovendien bevat het menselijke annotaties voor alle SWE-bench-testmonsters.
Daarnaast is er een nieuw evaluatieharnas voor de SWE-bench ontwikkeld. Het maakt gebruik van gecontaineriseerde Docker-omgevingen om de betrouwbaarheid van evaluaties op SWE-bench te vereenvoudigen en te verbeteren.
Met behulp van deze dataset OpenAI geëvalueerd GPT-4o's prestaties met verschillende open-source steigers. Dat hebben ze ontdekt GPT-4o behaalde een score van 33.2% op de SWE-bench, geverifieerd met de best presterende steiger, waardoor de eerdere score van 16% op de originele SWE-bench ruimschoots werd verdubbeld.
Cosine behaalt een succespercentage van 30% bij het oplossen van programmeerproblemen in de echte wereld GPT-4o Klimt naar de tweede plaats
De uitdagingen in deze benchmark zijn afgeleid van een reeks real-world programmeerproblemen waarvan bekend is dat ze bijzonder lastig zijn voor AI's. In maart meldde startup Cognition AI dat zijn model 14% van deze problemen zou kunnen oplossen.
Onlangs maakte startup Cosine bekend dat het een slagingspercentage van 30% had behaald, waarmee een nieuw record werd gevestigd. Ondertussen is er een model gebaseerd op OpenAI's GPT-4o bekleedt nu de tweede plaats, vergeleken met de derde plaats in een eerdere versie van de test.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.
Meer artikelenAlisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.