Naujienų ataskaita SMW Technologija
Gali 30, 2023

GPT-4JAV advokatūros egzamino rezultatai prieštarauja jos teiginiams

Trumpai

Nagrinėjimas GPT-4„Uniform Bar Exam“ rezultatai atskleidė skirtumą tarp apskaičiuotų ir faktinių rezultatų, pabrėždami skaidrių vertinimo procedūrų ir prieinamų duomenų svarbą.

OpenAI raginama šalinti neatitikimus ir sukurti visapusiškesnį bei patikimesnį AI modelio vertinimo metodą, siekiant įgyti pasitikėjimą ir užtikrinti patikimumą.

Neseniai atlikus tyrimą GPT-4pasirodymas „Uniform Bar“ egzamino metu (EBU), kilo abejonių dėl tikslumo OpenAIteiginius dėl modelio sėkmės rodiklio. Priešingai nei buvo teigiama iš pradžių GPT-4 lenkia 90% asmenų, išvados rodo didelį skirtumą tarp apskaičiuoto ir faktinio AI modelio veikimo. Šis apreiškimas pabrėžia skaidrių vertinimo procedūrų ir prieinamų duomenų svarbą tokiems teiginiams patvirtinti.

GPT-4JAV advokatūros egzamino rezultatai prieštarauja jos teiginiams
@Midjourney

Atliekant tyrimą buvo sutelktas dėmesys į įvairius veiksnius, siekiant išsiaiškinti tikrąsias galimybes GPT-4. Pirma, analizė vasario mėnesio egzaminų Ilinojaus valstijoje tai atskleidė GPT-4balai priartėjo prie 90-oji procentilė. Tačiau pastebėta, kad šiems balams didelės įtakos turėjo perlaikantys asmenys, kurie anksčiau neišlaikė liepos mėnesio egzamino ir todėl surinko žemiau bendro vidurkio.

Be to, liepos mėnesio egzamino rezultatai prieštaravo OpenAIteiginius, atskleidžiančius tai GPT-4 būtų tik Pranoksta 68% žmonių ir 48% rašinių. GPT-4rezultatyvumas prieš pirmą kartą atlikusius (išskyrus pakartotinius perlaikymus) buvo įvertintas 63 procentiliu, kai buvo atsižvelgta į oficialius duomenis iš kelių testų skirtingais laikotarpiais, o rašinių balai buvo žymiai mažesni ties 41 procentiliu.

Papildoma perspektyva buvo įgyta tiriant egzaminą išlaikiusių asmenų, įskaitant licencijuotus asmenis ir laukiančius licencijos, rezultatus. Šiuo atžvilgiu GPT-4bendras našumas buvo įvertintas 48 procentiliu, o esė dar blogiau – 15 procentiliu.

Nors šios išvados kelia nerimą, labai svarbu atsižvelgti į žmogiškosios klaidos galimybę peržiūros procese. Straipsnio autorius pabrėžia, kaip svarbu suprasti imtį, kurią tyrėjai naudoja vertindami GPT-4pasirodymą. Dėl oficialių duomenų trūkumo, ypač suvestinių, sunku teisingai palyginti ir įvertinti procentilius. Labai svarbu nustatyti aiškius ir prieinamus vertinimo metodus, kuriuos galėtų įvertinti visos suinteresuotosios šalys.

Atsakydamas į šiuos rūpesčius, OpenAI raginama šalinti neatitikimus ir pateikti daugiau įžvalgų į vertinimo procesą. Skaidrumas ir atvirumas yra būtini norint įgyti pasitikėjimą ir užtikrinti AI modelių patikimumą didelės svarbos srityse, tokiose kaip teisė.

Pažymėtina, kad straipsnyje neaptariamas konkretus balas, kurį pasiekė GPT-4, kuris, kaip pranešama, yra 298. Norint įvertinti šio balo reikšmingumą, reikia kontekstiškai suprasti naudojamą vertinimo sistemą. Lygiai taip pat, kaip vaikas, grįžtantis iš mokyklos su raide B, gali būti šventimo arba nusivylimo priežastimi, interpretacija GPT-4balas priklauso nuo naudojamos skalės.

Įvertinimas GPT-4Advokatūros egzamino pasirodymas kelia rimtų rūpesčių apie teisingumą OpenAIpradiniai teiginiai. Skirtumas tarp numatomo ir faktinio našumo pabrėžia aiškių vertinimo sistemų ir lengvai prieinamų duomenų svarbą. OpenAI yra skatinamas spręsti šiuos iššūkius ir sukurti labiau įtraukiantį ir patikimas požiūris į AI modelio vertinimas.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau

Samourai piniginės įkūrėjai apkaltinti palengvinę 2 mlrd. USD „Darknet“ sandorius

„Samourai Wallet“ įkūrėjų nuogąstavimai yra reikšmingas pramonės nuosmukis, pabrėžiantis nuolatinį ...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„Chainlink“ ir greitas papildymas bendradarbiauja kuriant CCIP pagrįstą „blockchain“ adapterį
Atsakingas verslas Naujienų ataskaita Technologija
„Chainlink“ ir greitas papildymas bendradarbiauja kuriant CCIP pagrįstą „blockchain“ adapterį
Gali 1, 2024
„BitSmiley“ pristato „Alphanet V1“, debiutuoja „Bitcoin Layer 2“ tinklo bitų sluoksnyje
Naujienų ataskaita Technologija
„BitSmiley“ pristato „Alphanet V1“, debiutuoja „Bitcoin Layer 2“ tinklo bitų sluoksnyje
Gali 1, 2024
2024 m. balandžio mėn. įsilaužimų ir sukčiavimo atvejų skaičius sumažėjo 141 %, o nuo kovo mėn.
rinkos saugumas Wiki Istorijos ir apžvalgos Technologija
2024 m. balandžio mėn. įsilaužimų ir sukčiavimo atvejų skaičius sumažėjo 141 %, o nuo kovo mėn.
Gali 1, 2024
„Bitcoin“ kaina nukrenta prieš paskelbiant Federalinio rezervo sprendimą dėl palūkanų normos, analitikai įspėja apie galimą rinkos pokytį
rinkos Naujienų ataskaita Technologija
„Bitcoin“ kaina nukrenta prieš paskelbiant Federalinio rezervo sprendimą dėl palūkanų normos, analitikai įspėja apie galimą rinkos pokytį
Gali 1, 2024
CRYPTOMERIA LABS PTE. LTD.