GPT-4Учинак корисника на правосудном испиту у САД је у супротности са његовим тврдњама
Укратко
Испитивање GPT-4Учинак корисника на Јединственом правосудном испиту открио је неслагање између процењеног и стварног учинка, наглашавајући важност транспарентних процедура евалуације и доступних података.
OpenAI подстиче се да се позабави разликама и развије инклузивнији и поузданији приступ евалуацији АИ модела како би стекао поверење и обезбедио кредибилитет.
У недавном испитивању о GPT-4Учинак особе на правосудном испиту (УБЕ), појавиле су се сумње у тачност OpenAIтврдње корисника у вези са успехом модела. Супротно првобитној тврдњи да GPT-4 надмашује 90% појединаца, налази сугеришу значајно неслагање између процењениһ и стварниһ перформанси АИ модела. Ово откриће наглашава важност транспарентниһ процедура евалуације и доступниһ података за потврђивање таквиһ тврдњи.
Испитивање се фокусирало на различите факторе да би се утврдиле праве способности GPT-4. Прво, анализа фебруарских испита у Илиноису је то открило GPT-4'с резултати су се приближили 90. перцентил. Међутим, примећено је да су на ове оцене у великој мери утицали понављачи који су претһодно пали на јулском испиту и на тај начин постигли испод укупног просека.
Штавише, резултати јулског испита су били у супротности OpenAI'с тврди, откривајући то GPT-4 само би Надмашити 68% људи и 48% есеја. GPT-4Учинак у односу на оне који први пут полажу (искључујући поновне полагања) процењен је на 63. перцентилу када су узети у обзир званични подаци са неколико тестова у различитим периодима, са есејима који су имали знатно ниже оцене на 41. перцентилу.
Додатна перспектива је добијена испитивањем учинка оних који су положили испит, укључујући лиценциране појединце и оне који чекају лиценцу. У вези са овим, GPT-4Његов укупни учинак био је рангиран на 48. перцентилу, а есеји су били још лошији на 15. перцентилу.
Иако су ови налази забрињавајући, кључно је размотрити могућност људске грешке у процесу ревизије. Аутор чланка наглашава важност разумевања узорка који су истраживачи користили за процену GPT-4'с перформанце. Недостатак званичних података, посебно у збирном облику, отежава поштено поређење и процену процената. Успостављање јасних и приступачних техника евалуације које могу да оцењују све заинтересоване стране је од кључног значаја.
Као одговор на ове забринутости, OpenAI позива се да отклони неслагања и пружи даље увиде у процес евалуације. Транспарентност и отвореност су од суштинског значаја за стицање поверења и обезбеђивање кредибилитета АИ модела у доменима са високим улозима као што је право.
Треба напоменути да се у чланку не говори о конкретном резултату постигнутом GPT-4, за који се наводи да је 298. Процена значаја овог резултата захтева контекстуално разумевање коришћеног система оцењивања. Као што дете које се враћа кући из школе са Б може бити или разлог за славље или разочарање, тумачење GPT-4'с резултат зависи од употребљене скале.
Процена GPT-4учинак на правосудном испиту изазива озбиљну забринутост о истинитости OpenAIпочетне тврдње. Јаз између процењеног и стварног учинка наглашава важност јасних система евалуације и лако доступних података. OpenAI охрабрује се да одговори на ове изазове и развије инклузивније и поуздан приступ АИ евалуација модела.
Прочитајте више о АИ:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.