Юли 20, 2023

Проучването на Станфорд потвърждава GPT-4 Става все по-глупав

Публикувано: 20 юли 2023 г. в 10:19 ч. Актуализирано: 20 юли 2023 г. в 10:20 ч.

Редактирано и проверено на фактите: 20 юли 2023 г. в 10:19 ч

Накратко

Проучване на Матей Захария и неговия екип от Станфорд и Калифорнийския университет в Бъркли сравнява ефективността на GPT-4 намлява ChatGPT за да отговори на притесненията на потребителите относно ефективността на модела.

Проучването оценява моделите по четири конкретни задачи: математика, кодиране, чувствителност и визуално разсъждение.

Матей Захария и неговият екип от Станфорд и UC Berkeley проведе проучване които сравняваха представянето на GPT-4 да се ChatGPT. Това разследване се опита да отговори на опасенията на потребителите, че ефективността на модела е намаляла.

Проучването на Станфорд потвърждава GPT-4 Става все по-глупав — Credit: Metaverse Post

сроден: GPT-4 срещу GPT-3: Какво може да предложи новият модел?

Изследователите са проектирали проучването, за да оценят моделите по четири конкретни задачи. Тези задачи включваха:

Математика: Способността на модела да определя дали дадено число е просто или съставно.
Кодиране: Оценяване на способността на модела да генерира смислен и функционален код.
Чувствителност: Анализиране на отговорите на модела на въпроси с потенциално „токсично“ съдържание.
Визуално разсъждение: Тестване на способността на модела за решаване на проблеми, които включват визуални модели, с помощта на бенчмарка ARC. Участниците трябваше да идентифицират модели в набор от изображения и да ги приложат за решаване на нов пример.

В областта на математиката и двете GPT-4 версиите, изданията през март и юни, демонстрираха постоянна точност при определяне на прости и съставни числа. Моделите показаха умение да се справят с тези изчисления, предоставяйки надеждни резултати.

Преминавайки към кодирането, GPT-4 показа подобрена способност за генериране на смислен и функционален код в сравнение със своите предшественици. Възможностите за генериране на код на модела показаха обещаващи, предлагайки потенциални ползи за разработчици и програмисти.

По отношение на чувствителността проучването оценява отговорите на моделите на въпроси, съдържащи потенциално вредно или обидно съдържание. GPT-4 демонстрира подобрен анализ на чувствителността и показа подобрена способност за предоставяне на подходящи отговори в такива контексти. Това означава положителна стъпка напред в справянето с притесненията на потребителите относно потенциално проблемни резултати.

И накрая, задачите за визуално разсъждение, базирани на бенчмарка ARC, бяха изпълнени успешно и от двамата GPT-4 версии. Моделите ефективно идентифицираха модели в набори от изображения и демонстрираха способност за прилагане на тези модели за решаване на нови примери. Това демонстрира техния капацитет за визуално разбиране и разсъждение.

Резултатите показват, че GPT-4 показаха спад в точността, само с малко над 2% верни отговори. Важно е да се отбележи, че този конкретен тест оценява предимно способността на модела да извиква данни, вместо да демонстрира присъщите му математически способности. Задачата се върти около извикване на паметта, тъй като моделът няма възможност за валидиране на изчисления и изводи, особено когато става въпрос за прости числа.

ChatGPT демонстрира значителен ръст в показателите за ефективност до юни, демонстрирайки забележително подобрение от над десет пъти. Въпреки че проучването не се задълбочава в конкретните фактори, допринасящи за това подобрение, то подчертава ChatGPTнапредъкът в математическите разсъждения и способностите за решаване на проблеми.

Проучването не оценява качеството или коректността на генерирания код. Вместо това изглежда, че моделите показват по-„персонализирано“ поведение, предлагайки кодови фрагменти, без да гарантират функционалната им точност.

сроден: 10+ най-добри AI Photo Enhancers през 2023 г

Качеството на GPT-4 намлява ChatGPT е разпитан след анализ на способностите им за програмиране. По-внимателният поглед обаче разкрива някои очарователни нюанси, които противоречат на първите впечатления.

Авторите не са изпълнили или проверили кода за коректност; тяхната оценка се основаваше единствено на неговата валидност като код на Python. Освен това изглежда, че моделите са научили специфична техника за рамкиране на код с помощта на декоратор, което неволно възпрепятства изпълнението на кода.

В резултат на това става ясно, че нито резултатите, нито самият експеримент могат да се считат за доказателство за деградация на модела. Вместо това, моделите демонстрират различен подход за генериране на отговори, потенциално отразяващи вариации в тяхното обучение.

Проверка на способностите за програмиране и математика на GPT-4 намлява ChatGPT хвърли светлина върху интересни открития. Противно на първоначалните предположения, моделите демонстрираха забележими подобрения в определени области, докато демонстрираха поведенчески промени в други.

Що се отнася до програмните задачи, и двата модела показват намаление в отговора на „грешни“ подкани, с GPT-4 показвайки повече от четирикратно намаление в такива случаи. Освен това при задачата Visual Reasoning качеството на отговорите се подобри с няколко процентни пункта и за двата модела. Тези наблюдения показват напредък, а не влошаване на ефективността.

Оценката на математическите умения обаче въвежда един интригуващ елемент. Моделите последователно предоставят прости числа като отговори, което показва последователен отговор „да“. И все пак, при въвеждането на съставни числа в извадката, стана ясно, че моделите промениха поведението си и започнаха да предоставят отговори „не“, което предполага по-скоро несигурност, отколкото спад в качеството. Самият тест е особен и едностранени неговите резултати могат да бъдат приписани на промени в поведението на модела, а не на спад в качеството.

Важно е да се отбележи, че бяха тествани версиите на API, а не базираните на браузър версии. Въпреки че е възможно моделите в браузъра да са претърпели корекции за оптимизиране на ресурсите, приложеното проучване не го прави defiдоказателство на тази хипотеза. Въздействието на такива смени може да бъде сравнимо с действителните понижавания на модела, което води до потенциални предизвикателства за потребителите, които разчитат на специфична работа подкани и натрупан опит.

В случай че GPT-4 API приложения, тези отклонения в поведението могат да имат осезаеми последици. Кодът, който е разработен въз основа на нуждите и задачите на конкретен потребител, може вече да не функционира по предназначение, ако моделът претърпи промени в поведението си.

Препоръчително е потребителите да включат подобни практики за тестване в своите работни процеси. Чрез създаване на набор от подкани, придружаващи текстове и очаквани резултати, потребителите могат редовно да проверяват за съответствие между техните очаквания и отговорите на модела. Веднага след като бъдат открити отклонения, могат да се предприемат подходящи мерки за коригиране на ситуацията.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов