GPT-4Представянето на адвокатския изпит в САЩ противоречи на неговите твърдения
Накратко
Изследването на GPT-4Представянето на Единния адвокатски изпит разкри несъответствие между очакваното и действителното представяне, подчертавайки важността на прозрачните процедури за оценка и достъпните данни.
OpenAI насърчава се да се обърне внимание на несъответствията и да се разработи по-всеобхватен и надежден подход към оценката на AI модела, за да се спечели доверие и да се гарантира надеждност.
При скорошно изследване на GPT-4представянето на единния адвокатски изпит (EBU), възникнаха съмнения относно точността на OpenAIтвърденията на относно успеваемостта на модела. Противно на първоначалното твърдение, че GPT-4 превъзхожда 90% от индивидите, констатациите предполагат значително несъответствие между прогнозната и действителната производителност на AI модела. Това разкритие подчертава значението на прозрачните процедури за оценка и достъпните данни за валидиране на такива твърдения.
Изпитът се фокусира върху различни фактори, за да се установят истинските способности на GPT-4. Първо, на анализ на февруарските изпити в Илинойс разкри това GPT-4Резултатите на се доближиха до 90-ти перцентил. Беше отбелязано обаче, че тези резултати са силно повлияни от повторно явяващите се, които преди това са се провалили на изпита през юли и по този начин са получили резултат под общата средна стойност.
Освен това резултатите от юлския изпит си противоречат OpenAIтвърденията на, разкриващи това GPT-4 би само превъзхождат 68% от хората и 48% от есетата. GPT-4Представянето на участниците за първи път (с изключение на повторните тестове) беше оценено на 63-ия персентил, когато бяха взети предвид официалните данни от няколко теста в различни периоди, като есетата отбелязаха значително по-ниски резултати на 41-ия персентил.
Допълнителна перспектива беше получена чрез проверка на представянето на издържалите изпита, включително лицензирани лица и такива, които чакат лицензиране. В тази връзка, GPT-4Цялостното представяне на е класирано на 48-ия персентил, като есетата се представят още по-зле на 15-ия персентил.
Въпреки че тези констатации са обезпокоителни, изключително важно е да се вземе предвид възможността за човешка грешка в процеса на преглед. Авторът на статията подчертава важността на разбирането на извадката, използвана от изследователите за оценка GPT-4представяне на. Липсата на официални данни, особено в обобщена форма, затруднява честното сравнение и оценка на процентилите. Установяването на ясни и достъпни техники за оценка, които могат да бъдат оценени от всички заинтересовани страни, е от решаващо значение.
В отговор на тези опасения, OpenAI се призовава да се отстранят несъответствията и предоставят допълнителни прозрения в процеса на оценяване. Прозрачността и откритостта са от съществено значение за спечелване на доверие и гарантиране на достоверността на моделите на ИИ в области с високи залози, като правото.
Трябва да се отбележи, че статията не обсъжда конкретния резултат, постигнат от GPT-4, което се съобщава на 298. Оценяването на значимостта на този резултат изисква контекстуално разбиране на използваната система за оценяване. Точно както дете, което се прибира от училище с Б може да бъде повод за празнуване или разочарование, тълкуването на GPT-4Резултатът на зависи от използвания мащаб.
Оценката на GPT-4представянето на адвокатския изпит поражда сериозни опасения относно достоверността на OpenAIпървоначалните твърдения на. Разликата между очакваното и действителното изпълнение подчертава значението на ясните системи за оценка и лесно достъпните данни. OpenAI се насърчава да се справи с тези предизвикателства и да разработи по-приобщаващ и надежден подход към AI оценка на модела.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.