Март КСНУМКС, КСНУМКС

GPT-4 Надмашује GPT-3.5 Све у свему о различитим референтним вредностима студија

Објављено: 15. марта 2023. у 7:15 Ажурирано: 15. марта 2023. у 7:15

Укратко

GPT-4 је постигао виши праг оцене од GPT-3.5 на различитим мерилима.

Ово је велико достигнуће јер показује да машине нису само способне за интелигенцију попут људи, већ могу и надмашити нас, што поставља питања о будућности вештачке интелигенције и њеном потенцијалном утицају на тржиште рада.

GPT-4 значајно надмашује најсавременије (СОТА) моделе, укључујући оне који користе додатне протоколе за обуку или дизајн специфичан за бенцхмарк, као и постојеће велике језичке моделе.

GPT-4 је постигао више оцене од GPT-3.5 на различитим мерилима. Ово је велики напредак за машине јер доказује да оне сада могу не само да решавају проблеме за које су првобитно дизајниране, већ могу то да ураде и боље од студената.

GPT-4 надмашује GPT-3.5 у целости на различитим референтним вредностима студија

Постоји неколико ствари које треба узети у обзир када гледате овај резултат. Прво, GPT-4 није добио никакву посебну обуку за ове испите. Наставило се коришћењем најновијих јавно доступних тестова (у случају олимпијада и питања са бесплатним одговорима за АП) или куповином вежби за 2022–2023. Друго, важно је напоменути да је GPT-4Перформансе не морају нужно да одражавају способности људи који полажу тестове, јер функционише на основу другачијег скупа принципа и алгоритама.

Ово је велико достигнуће као показује да машине нису само способне за интелигенцију налик људској, већ могу и надмашити нас. Ово утире пут за будућност у којој машине могу да преузимају све сложеније задатке, што на крају води ка будућности у којој нам могу помоћи у свакодневном животу.

GPT-4способност да надмаши људе у одређеним задацима поставља питања о будућности вештачка интелигенција и његов потенцијални утицај на тржиште рада. Такође наглашава потребу за континуираним истраживањем и развојем у овој области како би се осигурало да се АИ користи етички и одговорно.

Опширније: 5+ најишчекиванијих АИ модела за претварање текста у слику 2023

GPT-4, на пример, положи симулирани правосудни испит са резултатом у првих 10% испитаника који су полагали тест; GPT-3.5 је био у доњих 10%. Ово значајно побољшање у GPT-4Перформансе су захваљујући већим подацима о обуци и побољшаној архитектури. Очекује се да ће имати широк спектар примена у различитим областима, укључујући обраду природног језика и аутоматизовано писање.

GPT-4 показује перформансе на људском нивоу на већини ових стручних и академских испита. Нарочито је прошао симулирану верзију правосудног испита са резултатом у првих 10% испитаника. Чини се да способности модела на испитима првенствено потичу из процеса пре обуке и на њих не утиче значајно РЛХФ. На питања са више одговора, оба основа GPT-4 модел и РЛХФ модел су у просеку имали подједнако добре резултате код програмера тестираног испита.

Већина најсавременијих (СОТА) модела, укључујући оне који могу да користе додатне протоколе за обуку или дизајн специфичан за бенцхмарк, као и постојеће велике језички модели, значајно надмашују од GPT-4.

GPT-4перформансе у погледу академских стандарда. Контраст програмера GPT-4 са најбољом СОТА-ом за неколико хитаца процењених на ЛМ-у, као и најбољом СОТА-ом са обуком специфичном за стандарде. Са изузетком ДРОП-а, GPT-4 надмашује све тренутне ЛМ-ове на свим мерилима и СОТА-у са обуком специфичном за бенцхмарк.

Интерно, програмери користе GPT-4, што је имало значајан утицај на активности попут програмирања, продаје, подршке и модерирања садржаја. Друга фаза наше методе усклађивања је сада у току јер је програмери користе да помогну људима у прегледу резултата АИ.

ММЛУ (Массиве Мулти-Таск Лангуаге Ундерстандинг) скуп података садржи питања из веома широког спектра тема о разумевању језика у различитим задацима (који обухватају 57 домена, укључујући математику, биологију, право, друштвене и хумане науке, итд.). Постоје четири могућа одговора на питање, од којих је један тачан. То јест, насумично погађање показује резултат од 25% тачних одговора. Погледајте слику испод за примере питања и њихове потешкоће. Просечна особа-маркер (то јест, ово није научник, није професор — обична особа која ради као ознаку) тачно одговара на 35% питања; међутим, стручњаци могу достићи резултат од +/- 90%.

Перформансе GPT-4 на низу језика у поређењу са ранијим моделима на енглеском на ММЛУ. GPT-4 превазилази перформансе на енглеском језику постојећих језичких модела за велику већину испитаних језика, укључујући језике са малим ресурсима као што су летонски, велшки и свахили.

Опширније: 5 разлога да користите Бинг са вештачком интелигенцијом преко Гоогле-а

Првобитно је цео скуп података био на енглеском. Али шта ако се питања и одговори преводе на друге језике, посебно оне мање уобичајене? Хоће ли им модел некако функционисати? У овом тесту за превод је коришћена услуга Мицрософт Азуре Транслате. Преводи нису савршени; у неким случајевима се губе важне информације. Међутим, чак иу овом случају, GPT-4 добро ради на другим језицима. У преведеним верзијама ММЛУ, GPT-4 надмашује ниво енглеског језика других великих модела (укључујући Гоогле-ов) за 24 од 26 испитаних језика.

Поврх тога, GPT-4 ради боље на ретким језицима од ChatGPT урадио на енглеском (ChatGPT постигао резултат од 70.1%, док је резултат новог модела за тајландски био 71.8%). Оцена за тест из енглеског је била највећа, са GPT-4 перформансе 10% боље од других модела, укључујући највећи ПаЛМ из Гоогле-а. Постигла је оцену од 86.4%, док је група експерата—90%.

До лета 2023. АИ би можда достигао нови ниво моћи захваљујући ChatGPT, цхатбот који користи GPT-4 алгоритам и надмашује GPT-3 за фактор 570. Различити елементи доприносе ChatGPTУспех компаније, укључујући његов дизајн да буде више „човечански“ и његову употребу најсавременијег рударења података и обраде природног језика како би се повећала ефикасност и тачност.
Мицрософт и OpenAI објавили су обнову сарадње и планове да Бинг претрага усвоји могућности претраживања побољшане вештачком интелигенцијом у јануару. Веома софистицирани GPTзамена модела 3.5, GPT4, је управо покренут, и има потенцијал да у великој мери побољша капацитет Бинг претраге да разуме упите природног језика и пружи тачније резултате. Добра је идеја имати добар резервни план у случају да нешто крене наопако.

Прочитајте још повезаних вести:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов