Buletin de stiri Software Tehnologia
August 14, 2024

OpenAI Prezintă SWE-Bench Verified pentru a îmbunătăți fiabilitatea evaluării modelelor AI

Pe scurt

OpenAI a lansat un subset validat de oameni de SWE-bench, conceput pentru a evalua cu precizie capacitatea modelelor AI de a rezolva problemele software din lumea reală.

OpenAI Prezintă SWE-Bench Verified pentru a îmbunătăți fiabilitatea evaluării modelelor AI

Organizație de cercetare în domeniul inteligenței artificiale OpenAI a anunțat lansarea unui subset validat de om de SWE-bench, conceput pentru a evalua mai precis capacitatea modelelor AI de a rezolva problemele software din lumea reală.

SWE-bench este un punct de referință utilizat pentru a evalua capabilitățile modelelor de limbaj mari (LLM) în abordarea problemelor software din lumea reală provenite din GitHub. Este un instrument de evaluare utilizat pe scară largă pentru ingineria software, în care agenților li se oferă un depozit de cod și o descriere a problemei și au sarcina de a crea un patch pentru a rezolva problema descrisă.

Este utilizat pentru a monitoriza nivelul de risc mediu în cadrul categoriei de risc Autonomie model a Cadrului de pregătire. Evaluarea nivelurilor de risc catastrofal depinde de fiabilitatea rezultatelor evaluării și de o înțelegere clară a ceea ce reprezintă scorurile.

Compania a lansat SWE-bench Verified în colaborare cu autorii SWE-bench. Acest subset al setului original de test SWE-bench include 500 de eșantioane confirmate ca neproblematice de adnotatorii umani. Această nouă versiune înlocuiește atât seturile de testare originale SWE-bench, cât și SWE-bench Lite. În plus, include adnotări umane pentru toate probele de test SWE-bench.

În plus, a fost dezvoltat un nou ham de evaluare pentru SWE-bench. Utilizează medii Docker containerizate pentru a simplifica și îmbunătăți fiabilitatea evaluărilor pe SWE-bench.

Folosind acest set de date, OpenAI evaluat GPT-4performanța lui o cu diverse schele open-source. Au descoperit asta GPT-4o a obținut un scor de 33.2% la SWE-bench Verified cu cea mai performantă schelă, dublându-și scorul anterior de 16% la SWE-bench original. 

Cosine atinge o rată de succes de 30% în rezolvarea problemelor de programare din lumea reală, GPT-4o Urcă pe locul doi

Provocările din acest punct de referință sunt derivate dintr-un set de probleme de programare din lumea reală, cunoscute pentru că sunt deosebit de dure pentru AI. În martie, startup-ul Cognition AI a raportat că modelul său ar putea rezolva 14% dintre aceste probleme. 

Recent, startup-ul Cosine a anunțat că a atins o rată de succes de 30%, stabilind un nou record. Între timp, un model bazat pe OpenAI„s GPT-4o deține acum poziția pe locul doi, în sus față de locul trei cu o versiune anterioară a testului.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Alisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Mai multe articole
Alisa Davidson
Alisa Davidson

Alisa, o jurnalistă dedicată la MPost, este specializată în criptomonede, dovezi fără cunoștințe, investiții și tărâmul expansiv al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

De la Ripple la Big Green DAO: Cum contribuie proiectele de criptomonede la caritate

Să explorăm inițiativele care valorifică potențialul monedelor digitale pentru cauze caritabile.

Aflați mai multe

AlphaFold 3, Med-Gemini și alții: modul în care AI transformă asistența medicală în 2024

Inteligența artificială se manifestă în diferite moduri în asistența medicală, de la descoperirea de noi corelații genetice până la abilitarea sistemelor chirurgicale robotizate...

Aflați mai multe
Citeste mai mult
Află mai multe
Întâlnirea co-gazdă DFG, Jsquare, Ticker Capital și Starbase, dezvăluire Web3 Tendințe de investiții în timpul KBW2024
Stil de viață Buletin de stiri Tehnologia
Întâlnirea co-gazdă DFG, Jsquare, Ticker Capital și Starbase, dezvăluire Web3 Tendințe de investiții în timpul KBW2024
6 Septembrie, 2024
Binance To Airdrop USDC către deținătorii FRONT și SLF după finalizarea rebrand-ului de simbol
pieţe Buletin de stiri
Binance To Airdrop USDC către deținătorii FRONT și SLF după finalizarea rebrand-ului de simbol
6 Septembrie, 2024
Lanțul BNB anunță al patrulea program de stimulare TVL cu recompense de 300,000 USD
Featured Buletin de stiri Tehnologia
Lanțul BNB anunță al patrulea program de stimulare TVL cu recompense de 300,000 USD
6 Septembrie, 2024
Oferte de miliarde de dolari: AI Safety Startup strânge 1 miliard de dolari, deoarece Nvidia injectează 100 de milioane de dolari în firma japoneză de IA
rezumat Afaceri pieţe Software Tehnologia
Oferte de miliarde de dolari: AI Safety Startup strânge 1 miliard de dolari, deoarece Nvidia injectează 100 de milioane de dolari în firma japoneză de IA
6 Septembrie, 2024
CRYPTOMERIA LABS PTE. LTD.