Новински извештај СМВ технологија
Може 30, 2023

GPT-4Учинак корисника на правосудном испиту у САД је у супротности са његовим тврдњама

Укратко

Испитивање GPT-4Учинак корисника на Јединственом правосудном испиту открио је неслагање између процењеног и стварног учинка, наглашавајући важност транспарентних процедура евалуације и доступних података.

OpenAI подстиче се да се позабави разликама и развије инклузивнији и поузданији приступ евалуацији АИ модела како би стекао поверење и обезбедио кредибилитет.

У недавном испитивању о GPT-4Учинак особе на правосудном испиту (УБЕ), појавиле су се сумње у тачност OpenAIтврдње корисника у вези са успехом модела. Супротно првобитној тврдњи да GPT-4 надмашује 90% појединаца, налази сугеришу значајно неслагање између процењениһ и стварниһ перформанси АИ модела. Ово откриће наглашава важност транспарентниһ процедура евалуације и доступниһ података за потврђивање таквиһ тврдњи.

GPT-4Учинак корисника на правосудном испиту у САД је у супротности са његовим тврдњама
@Midjourney

Испитивање се фокусирало на различите факторе да би се утврдиле праве способности GPT-4. Прво, анализа фебруарских испита у Илиноису је то открило GPT-4'с резултати су се приближили 90. перцентил. Међутим, примећено је да су на ове оцене у великој мери утицали понављачи који су претһодно пали на јулском испиту и на тај начин постигли испод укупног просека.

Штавише, резултати јулског испита су били у супротности OpenAI'с тврди, откривајући то GPT-4 само би Надмашити 68% људи и 48% есеја. GPT-4Учинак у односу на оне који први пут полажу (искључујући поновне полагања) процењен је на 63. перцентилу када су узети у обзир званични подаци са неколико тестова у различитим периодима, са есејима који су имали знатно ниже оцене на 41. перцентилу.

Додатна перспектива је добијена испитивањем учинка оних који су положили испит, укључујући лиценциране појединце и оне који чекају лиценцу. У вези са овим, GPT-4Његов укупни учинак био је рангиран на 48. перцентилу, а есеји су били још лошији на 15. перцентилу.

Иако су ови налази забрињавајући, кључно је размотрити могућност људске грешке у процесу ревизије. Аутор чланка наглашава важност разумевања узорка који су истраживачи користили за процену GPT-4'с перформанце. Недостатак званичних података, посебно у збирном облику, отежава поштено поређење и процену процената. Успостављање јасних и приступачних техника евалуације које могу да оцењују све заинтересоване стране је од кључног значаја.

Као одговор на ове забринутости, OpenAI позива се да отклони неслагања и пружи даље увиде у процес евалуације. Транспарентност и отвореност су од суштинског значаја за стицање поверења и обезбеђивање кредибилитета АИ модела у доменима са високим улозима као што је право.

Треба напоменути да се у чланку не говори о конкретном резултату постигнутом GPT-4, за који се наводи да је 298. Процена значаја овог резултата захтева контекстуално разумевање коришћеног система оцењивања. Као што дете које се враћа кући из школе са Б може бити или разлог за славље или разочарање, тумачење GPT-4'с резултат зависи од употребљене скале.

Процена GPT-4учинак на правосудном испиту изазива озбиљну забринутост о истинитости OpenAIпочетне тврдње. Јаз између процењеног и стварног учинка наглашава важност јасних система евалуације и лако доступних података. OpenAI охрабрује се да одговори на ове изазове и развије инклузивније и поуздан приступ АИ евалуација модела.

Прочитајте више о АИ:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више

Оснивачи новчаника Самоураи оптужени за омогућавање 2 милијарде долара у Даркнет пословима

Хапшење оснивача новчаника Самоураи представља значајан корак уназад за индустрију, наглашавајући упорне ...

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Цхаинлинк и Рапид Аддитион сарађују на развоју ЦЦИП-базираног Блоцкцхаин адаптера
Posao Новински извештај технологија
Цхаинлинк и Рапид Аддитион сарађују на развоју ЦЦИП-базираног Блоцкцхаин адаптера
Може 1, 2024
БитСмилеи лансира Алпханет В1, дебитује на Битцоин Лаиер 2 Нетворк Битлаиер-у
Новински извештај технологија
БитСмилеи лансира Алпханет В1, дебитује на Битцоин Лаиер 2 Нетворк Битлаиер-у
Може 1, 2024
Април 2024. биљежи историјски низак број хакова и превара, ЦертиК извјештава о смањењу од 141% у односу на март
tržišta безбедност Wiki Приче и критике технологија
Април 2024. биљежи историјски низак број хакова и превара, ЦертиК извјештава о смањењу од 141% у односу на март
Може 1, 2024
Цена биткоина пада уочи објаве одлуке о каматној стопи Федералних резерви, аналитичари упозоравају на потенцијалну промену тржишта
tržišta Новински извештај технологија
Цена биткоина пада уочи објаве одлуке о каматној стопи Федералних резерви, аналитичари упозоравају на потенцијалну промену тржишта
Може 1, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.