Јула КСНУМКС, КСНУМКС

Станфордова студија потврђује GPT-4 Постаје глупљи

Објављено: 20. јула 2023. у 10:19 Ажурирано: 20. јула 2023. у 10:20

Измењено и проверено: 20. јул 2023. у 10:19

Укратко

Студија Матеија Захарије и његовог тима са Станфорда и УЦ Беркелеи упоредила је учинак GPT-4 ChatGPT да одговори на забринутост корисника о ефикасности модела.

Студија је процењивала моделе на четири специфична задатка: математика, кодирање, осетљивост и визуелно резоновање.

Матеи Захариа и његов тим са Станфорда и УЦ Беркелеи спровела студију који је упоредио перформансе GPT-4 до ChatGPT. Ова истрага је настојала да одговори на забринутост корисника да је ефикасност модела опала.

Станфордова студија потврђује GPT-4 Постаје глупљи — Кредит: Metaverse Post

Напомена: GPT-4 вс GPT-3: Шта нови модел има да понуди?

Истраживачи су дизајнирали студију да процене моделе на четири специфична задатка. Ови задаци су укључивали:

Математика: Способност модела да одреди да ли је дати број прост или сложен.
Кодирање: Процена способности модела да генерише смислен и функционалан код.
Осетљивост: Анализирање одговора модела на питања са потенцијално „токсичним“ садржајем.
Визуелно резоновање: Тестирање способности модела за решавање проблема који укључују визуелне обрасце, користећи АРЦ бенцхмарк. Учесници су морали да идентификују обрасце у скупу слика и примене их да реше нови пример.

У области математике и једно и друго GPT-4 верзије, издања у марту и јуну, показали су доследну тачност у одређивању простих и сложених бројева. Модели су показали вештину у руковању овим прорачунима, пружајући поуздане резултате.

Прелазимо на кодирање, GPT-4 показао побољшану способност генерисања смисленог и функционалног кода у поређењу са својим претходницима. Могућности генерисања кода модела су обећале, нудећи потенцијалне предности за програмере и програмере.

Што се тиче осетљивости, студија је проценила одговоре модела на питања која садрже потенцијално штетан или увредљив садржај. GPT-4 показао побољшану анализу осетљивости и показао побољшану способност да пружи одговарајуће одговоре у таквим контекстима. Ово означава позитиван корак напред у решавању забринутости корисника о потенцијално проблематичним резултатима.

На крају, обоје су успешно завршили задатке визуелног резоновања засноване на АРЦ мерилу GPT-4 верзије. Модели су ефикасно идентификовали обрасце унутар скупова слика и показали способност примене ових образаца за решавање нових примера. Ово показује њихову способност визуелног разумевања и закључивања.

Резултати указују на то GPT-4 показало смањење тачности, са само нешто више од 2% тачних одговора. Важно је напоменути да овај конкретни тест првенствено процењује способност модела да се сети података, а не показује његове инхерентне математичке способности. Задатак се врти око присећања меморије, пошто моделу недостаје могућност за валидацију израчунавања и закључивање, посебно када су у питању прости бројеви.

ChatGPT показао значајан раст у метрикама учинка до јуна, показујући значајно побољшање од преко десет пута. Иако се студија није бавила специфичним факторима који доприносе овом побољшању, она наглашава ChatGPTнапредак у математичком закључивању и способности решавања проблема.

Студија није проценила квалитет или исправност генерисаног кода. Уместо тога, чинило се да модели показују више „прилагођено“ понашање, нудећи исечке кода без обезбеђивања њихове функционалне тачности.

Напомена: 10+ најбољих АИ појачивача фотографија у 2023

Квалитет GPT-4 ChatGPT је испитан након анализе њихових програмских способности. Међутим, пажљивији поглед открива неке фасцинантне нијансе које су у супротности са првим утисцима.

Аутори нису извршили нити проверили исправност кода; њихова процена је била искључиво заснована на његовој валидности као Питхон кода. Поред тога, чинило се да су модели научили специфичну технику уоквиривања кода користећи декоратор, што је ненамерно ометало извршавање кода.

Као резултат, постаје очигледно да се ни резултати ни сам експеримент не могу сматрати доказом деградације модела. Уместо тога, модели показују другачији приступ генерисању одговора, потенцијално одражавајући варијације у њиховој обуци.

Испитивање способности програмирања и математике GPT-4 ChatGPT је расветлио занимљиве налазе. Супротно почетним претпоставкама, модели су показали значајна побољшања у одређеним областима док су показивали промене понашања у другим.

Када су у питању програмски задаци, оба модела су показала смањење у реаговању на „погрешне” упите, са GPT-4 показујући више од четвороструко смањење у таквим случајевима. Поред тога, на задатку Визуелно резоновање, квалитет одговора је побољшан за неколико процентних поена за оба модела. Ова запажања указују на напредак пре него на деградацију перформанси.

Међутим, процена математичких вештина уводи интригантан елемент. Модели су доследно давали просте бројеве као одговоре, што указује на доследан одговор „да“. Ипак, након увођења сложених бројева у узорак, постало је очигледно да су модели променили своје понашање и почели да дају „не“ одговоре, што указује на несигурност пре него на пад квалитета. Сам тест је необичан и једностран, а његови резултати се могу приписати променама у понашању модела, а не паду квалитета.

Важно је напоменути да су тестиране верзије АПИ-ја, а не верзије засноване на претраживачу. Иако је могуће да су модели у претраживачу прошли прилагођавања ради оптимизације ресурса, приложена студија није defiнитивно доказати ову хипотезу. Утицај таквих померања може бити упоредив са стварним деградирањем модела, што доводи до потенцијалних изазова за кориснике који се ослањају на специфичан рад упити и нагомилано искуство.

У случају GPT-4 АПИ апликацијама, ова одступања у понашању могу имати опипљиве последице. Код који је развијен на основу потреба и задатака одређеног корисника можда више неће функционисати како је предвиђено ако се модел промени у свом понашању.

Препоручује се да корисници уграде сличне праксе тестирања у своје токове рада. Креирањем скупа упита, пратећих текстова и очекиваних резултата, корисници могу редовно да проверавају конзистентност између својих очекивања и одговора модела. Чим се открију било каква одступања, могу се предузети одговарајуће мере да се ситуација поправи.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов