GPT-4JAV advokatūros egzamino rezultatai prieštarauja jos teiginiams
Trumpai
Nagrinėjimas GPT-4„Uniform Bar Exam“ rezultatai atskleidė skirtumą tarp apskaičiuotų ir faktinių rezultatų, pabrėždami skaidrių vertinimo procedūrų ir prieinamų duomenų svarbą.
OpenAI raginama šalinti neatitikimus ir sukurti visapusiškesnį bei patikimesnį AI modelio vertinimo metodą, siekiant įgyti pasitikėjimą ir užtikrinti patikimumą.
Neseniai atlikus tyrimą GPT-4pasirodymas „Uniform Bar“ egzamino metu (EBU), kilo abejonių dėl tikslumo OpenAIteiginius dėl modelio sėkmės rodiklio. Priešingai nei buvo teigiama iš pradžių GPT-4 lenkia 90% asmenų, išvados rodo didelį skirtumą tarp apskaičiuoto ir faktinio AI modelio veikimo. Šis apreiškimas pabrėžia skaidrių vertinimo procedūrų ir prieinamų duomenų svarbą tokiems teiginiams patvirtinti.
Atliekant tyrimą buvo sutelktas dėmesys į įvairius veiksnius, siekiant išsiaiškinti tikrąsias galimybes GPT-4. Pirma, analizė vasario mėnesio egzaminų Ilinojaus valstijoje tai atskleidė GPT-4balai priartėjo prie 90-oji procentilė. Tačiau pastebėta, kad šiems balams didelės įtakos turėjo perlaikantys asmenys, kurie anksčiau neišlaikė liepos mėnesio egzamino ir todėl surinko žemiau bendro vidurkio.
Be to, liepos mėnesio egzamino rezultatai prieštaravo OpenAIteiginius, atskleidžiančius tai GPT-4 būtų tik Pranoksta 68% žmonių ir 48% rašinių. GPT-4rezultatyvumas prieš pirmą kartą atlikusius (išskyrus pakartotinius perlaikymus) buvo įvertintas 63 procentiliu, kai buvo atsižvelgta į oficialius duomenis iš kelių testų skirtingais laikotarpiais, o rašinių balai buvo žymiai mažesni ties 41 procentiliu.
Papildoma perspektyva buvo įgyta tiriant egzaminą išlaikiusių asmenų, įskaitant licencijuotus asmenis ir laukiančius licencijos, rezultatus. Šiuo atžvilgiu GPT-4bendras našumas buvo įvertintas 48 procentiliu, o esė dar blogiau – 15 procentiliu.
Nors šios išvados kelia nerimą, labai svarbu atsižvelgti į žmogiškosios klaidos galimybę peržiūros procese. Straipsnio autorius pabrėžia, kaip svarbu suprasti imtį, kurią tyrėjai naudoja vertindami GPT-4pasirodymą. Dėl oficialių duomenų trūkumo, ypač suvestinių, sunku teisingai palyginti ir įvertinti procentilius. Labai svarbu nustatyti aiškius ir prieinamus vertinimo metodus, kuriuos galėtų įvertinti visos suinteresuotosios šalys.
Atsakydamas į šiuos rūpesčius, OpenAI raginama šalinti neatitikimus ir pateikti daugiau įžvalgų į vertinimo procesą. Skaidrumas ir atvirumas yra būtini norint įgyti pasitikėjimą ir užtikrinti AI modelių patikimumą didelės svarbos srityse, tokiose kaip teisė.
Pažymėtina, kad straipsnyje neaptariamas konkretus balas, kurį pasiekė GPT-4, kuris, kaip pranešama, yra 298. Norint įvertinti šio balo reikšmingumą, reikia kontekstiškai suprasti naudojamą vertinimo sistemą. Lygiai taip pat, kaip vaikas, grįžtantis iš mokyklos su raide B, gali būti šventimo arba nusivylimo priežastimi, interpretacija GPT-4balas priklauso nuo naudojamos skalės.
Įvertinimas GPT-4Advokatūros egzamino pasirodymas kelia rimtų rūpesčių apie teisingumą OpenAIpradiniai teiginiai. Skirtumas tarp numatomo ir faktinio našumo pabrėžia aiškių vertinimo sistemų ir lengvai prieinamų duomenų svarbą. OpenAI yra skatinamas spręsti šiuos iššūkius ir sukurti labiau įtraukiantį ir patikimas požiūris į AI modelio vertinimas.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.