OpenAI Prezintă SWE-Bench Verified pentru a îmbunătăți fiabilitatea evaluării modelelor AI
Pe scurt
OpenAI a lansat un subset validat de oameni de SWE-bench, conceput pentru a evalua cu precizie capacitatea modelelor AI de a rezolva problemele software din lumea reală.
Organizație de cercetare în domeniul inteligenței artificiale OpenAI a anunțat lansarea unui subset validat de om de SWE-bench, conceput pentru a evalua mai precis capacitatea modelelor AI de a rezolva problemele software din lumea reală.
SWE-bench este un punct de referință utilizat pentru a evalua capabilitățile modelelor de limbaj mari (LLM) în abordarea problemelor software din lumea reală provenite din GitHub. Este un instrument de evaluare utilizat pe scară largă pentru ingineria software, în care agenților li se oferă un depozit de cod și o descriere a problemei și au sarcina de a crea un patch pentru a rezolva problema descrisă.
Este utilizat pentru a monitoriza nivelul de risc mediu în cadrul categoriei de risc Autonomie model a Cadrului de pregătire. Evaluarea nivelurilor de risc catastrofal depinde de fiabilitatea rezultatelor evaluării și de o înțelegere clară a ceea ce reprezintă scorurile.
Compania a lansat SWE-bench Verified în colaborare cu autorii SWE-bench. Acest subset al setului original de test SWE-bench include 500 de eșantioane confirmate ca neproblematice de adnotatorii umani. Această nouă versiune înlocuiește atât seturile de testare originale SWE-bench, cât și SWE-bench Lite. În plus, include adnotări umane pentru toate probele de test SWE-bench.
În plus, a fost dezvoltat un nou ham de evaluare pentru SWE-bench. Utilizează medii Docker containerizate pentru a simplifica și îmbunătăți fiabilitatea evaluărilor pe SWE-bench.
Folosind acest set de date, OpenAI evaluat GPT-4performanța lui o cu diverse schele open-source. Au descoperit asta GPT-4o a obținut un scor de 33.2% la SWE-bench Verified cu cea mai performantă schelă, dublându-și scorul anterior de 16% la SWE-bench original.
Cosine atinge o rată de succes de 30% în rezolvarea problemelor de programare din lumea reală, GPT-4o Urcă pe locul doi
Provocările din acest punct de referință sunt derivate dintr-un set de probleme de programare din lumea reală, cunoscute pentru că sunt deosebit de dure pentru AI. În martie, startup-ul Cognition AI a raportat că modelul său ar putea rezolva 14% dintre aceste probleme.
Recent, startup-ul Cosine a anunțat că a atins o rată de succes de 30%, stabilind un nou record. Între timp, un model bazat pe OpenAI„s GPT-4o deține acum poziția pe locul doi, în sus față de locul trei cu o versiune anterioară a testului.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Alisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.
Mai multe articoleAlisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.