Uutisraportti SMW Elektroniikka
Voi 30, 2023

GPT-4Yhdysvaltain asianajajatutkinnon suorittaminen on ristiriidassa sen väitteiden kanssa

Lyhyesti

Tutkimus GPT-4Uniform Bar Exam -suorituskyky paljasti eron arvioitujen ja todellisten suoritusten välillä, mikä korosti läpinäkyvien arviointimenettelyjen ja saatavilla olevan tiedon merkitystä.

OpenAI kannustetaan puuttumaan eroihin ja kehittämään kattavampi ja luotettavampi lähestymistapa tekoälymallien arviointiin luottamuksen saavuttamiseksi ja uskottavuuden varmistamiseksi.

Äskettäisessä tutkimuksessa GPT-4suoritus Uniform Bar Exam (EBU), tarkkuudesta on herännyt epäilyksiä OpenAIn väitteet mallin onnistumisasteesta. Vastoin alkuperäistä väitettä GPT-4 ylittää 90 % yksilöistä, havainnot viittaavat merkittävään eroon tekoälymallin arvioidun ja todellisen suorituskyvyn välillä. Tämä paljastus korostaa avoimien arviointimenettelyjen ja saatavilla olevan tiedon merkitystä tällaisten väitteiden validoinnissa.

GPT-4Yhdysvaltain asianajajatutkinnon suorittaminen on ristiriidassa sen väitteiden kanssa
@Midjourney

Tutkimuksessa keskityttiin erilaisiin tekijöihin, joilla varmistetaan todelliset kyvyt GPT-4. Ensinnäkin, analyysi Illinoisissa helmikuun kokeet paljastivat sen GPT-4pisteet lähestyivät 90. prosenttipiste. Kuitenkin havaittiin, että näihin pisteisiin vaikuttivat voimakkaasti uusintakäynnit, jotka olivat aiemmin epäonnistuneet heinäkuun kokeessa ja siten saavuttaneet kokonaiskeskiarvon alapuolella.

Lisäksi heinäkuun kokeen tulokset olivat ristiriitaisia OpenAIväittää, paljastaen sen GPT-4 vain suoriutua paremmin kuin 68 % ihmisistä ja 48 % esseistä. GPT-4Suoritus ensimmäistä kertaa suorittajiin verrattuna (lukuun ottamatta uusintatuloksia) arvioitiin 63. prosenttipisteellä, kun tarkasteltiin virallisia tietoja useista testeistä eri ajanjaksoina, ja esseiden pisteet olivat huomattavasti alhaisemmat 41. prosenttipisteellä.

Lisänäkökulmaa saatiin tarkastelemalla kokeen läpäisseiden suorituksia, mukaan lukien luvan saaneet henkilöt ja lupaa odottavat. Tässä suhteessa, GPT-4Yleinen suorituskyky sijoittui 48. prosenttipisteeseen, ja esseet menestyivät vielä huonommin 15. prosenttipisteellä.

Vaikka nämä havainnot ovat huolestuttavia, on tärkeää ottaa huomioon inhimillisen virheen mahdollisuus tarkistusprosessissa. Artikkelin kirjoittaja korostaa, että on tärkeää ymmärtää tutkijoiden arvioinnissa käyttämä otos GPT-4n suorituskykyä. Virallisen tiedon puute, erityisesti aggregoidussa muodossa, vaikeuttaa prosenttipisteiden reilua vertailua ja arviointia. On erittäin tärkeää luoda selkeitä ja helppokäyttöisiä arviointitekniikoita, joita kaikki sidosryhmät voivat arvioida.

Vastauksena näihin huolenaiheisiin OpenAI kehotetaan korjaamaan erot ja antaa lisänäkemyksiä arviointiprosessiin. Läpinäkyvyys ja avoimuus ovat välttämättömiä luottamuksen saavuttamiseksi ja tekoälymallien uskottavuuden takaamiseksi korkean panoksen aloilla, kuten laissa.

On huomattava, että artikkelissa ei käsitellä tiettyä pistemäärää, joka on saavutettu GPT-4, jonka raportoidaan olevan 298. Tämän pistemäärän merkityksen arvioiminen edellyttää kontekstuaalista ymmärrystä käytetystä luokitusjärjestelmästä. Aivan kuten koulusta kotiin B-kirjaimella tuleva lapsi voi olla joko juhlan tai pettymyksen aihe, tulkinta GPT-4pisteet riippuvat käytetystä asteikosta.

Arviointi GPT-4suorituskyky asianajajakokeissa herättää vakavia huolenaiheita totuudesta OpenAIalkuperäiset väitteet. Arvioidun ja todellisen suorituskyvyn välinen ero korostaa selkeiden arviointijärjestelmien ja helposti saatavilla olevan tiedon merkitystä. OpenAI kannustetaan vastaamaan näihin haasteisiin ja kehittämään osallistavampaa ja luotettava lähestymistapa tekoälyyn mallin arviointi.

Lue lisää tekoälystä:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän

Samourai Walletin perustajia syytetään 2 miljardin dollarin helpottamisesta Darknet-kaupoissa

Samourai Walletin perustajien pelko on huomattava takaisku teollisuudelle, mikä korostaa jatkuvaa ...

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Ketjulinkki ja nopea lisäys tekevät yhteistyötä kehittääkseen CCIP-pohjaisen lohkoketjusovittimen
Bisnes Uutisraportti Elektroniikka
Ketjulinkki ja nopea lisäys tekevät yhteistyötä kehittääkseen CCIP-pohjaisen lohkoketjusovittimen
Voi 1, 2024
BitSmiley julkaisee Alphanet V1:n, debytoi Bitcoin Layer 2 Network Bitlayerissä
Uutisraportti Elektroniikka
BitSmiley julkaisee Alphanet V1:n, debytoi Bitcoin Layer 2 Network Bitlayerissä
Voi 1, 2024
Huhtikuussa 2024 hakkerointi ja huijaukset ovat historiallisesti alhaisia, CertiK raportoi 141 %:n laskua maaliskuusta
markkinat Turvallisuus Wiki Tarinoita ja arvosteluja Elektroniikka
Huhtikuussa 2024 hakkerointi ja huijaukset ovat historiallisesti alhaisia, CertiK raportoi 141 %:n laskua maaliskuusta
Voi 1, 2024
Bitcoinin hinta laskee ennen Federal Reserven korkopäätösilmoitusta, analyytikot varoittavat mahdollisesta markkinamuutoksesta
markkinat Uutisraportti Elektroniikka
Bitcoinin hinta laskee ennen Federal Reserven korkopäätösilmoitusta, analyytikot varoittavat mahdollisesta markkinamuutoksesta
Voi 1, 2024
CRYPTOMERIA LABS PTE. OY.