Новински извештај технологија
Март КСНУМКС, КСНУМКС

GPT-4 Надмашује GPT-3.5 Све у свему о различитим референтним вредностима студија

Укратко

GPT-4 је постигао виши праг оцене од GPT-3.5 на различитим мерилима.

Ово је велико достигнуће јер показује да машине нису само способне за интелигенцију попут људи, већ могу и надмашити нас, што поставља питања о будућности вештачке интелигенције и њеном потенцијалном утицају на тржиште рада.

GPT-4 значајно надмашује најсавременије (СОТА) моделе, укључујући оне који користе додатне протоколе за обуку или дизајн специфичан за бенцхмарк, као и постојеће велике језичке моделе.

GPT-4 је постигао више оцене од GPT-3.5 на различитим мерилима. Ово је велики напредак за машине јер доказује да оне сада могу не само да решавају проблеме за које су првобитно дизајниране, већ могу то да ураде и боље од студената.

GPT-4 надмашује GPT-3.5 у целости на различитим референтним вредностима студија

Постоји неколико ствари које треба узети у обзир када гледате овај резултат. Прво, GPT-4 није добио никакву посебну обуку за ове испите. Наставило се коришћењем најновијих јавно доступних тестова (у случају олимпијада и питања са бесплатним одговорима за АП) или куповином вежби за 2022–2023. Друго, важно је напоменути да је GPT-4Перформансе не морају нужно да одражавају способности људи који полажу тестове, јер функционише на основу другачијег скупа принципа и алгоритама.

Ово је велико достигнуће као показује да машине нису само способне за интелигенцију налик људској, већ могу и надмашити нас. Ово утире пут за будућност у којој машине могу да преузимају све сложеније задатке, што на крају води ка будућности у којој нам могу помоћи у свакодневном животу.

GPT-4способност да надмаши људе у одређеним задацима поставља питања о будућности вештачка интелигенција и његов потенцијални утицај на тржиште рада. Такође наглашава потребу за континуираним истраживањем и развојем у овој области како би се осигурало да се АИ користи етички и одговорно.
Опширније: 5+ најишчекиванијих АИ модела за претварање текста у слику 2023

GPT-4, на пример, положи симулирани правосудни испит са резултатом у првих 10% испитаника који су полагали тест; GPT-3.5 је био у доњих 10%. Ово значајно побољшање у GPT-4Перформансе су захваљујући већим подацима о обуци и побољшаној архитектури. Очекује се да ће имати широк спектар примена у различитим областима, укључујући обраду природног језика и аутоматизовано писање.

 
GPT-4 показује перформансе на људском нивоу на већини ових стручних и академских испита. Нарочито је прошао симулирану верзију правосудног испита са резултатом у првих 10% испитаника. Чини се да способности модела на испитима првенствено потичу из процеса пре обуке и на њих не утиче значајно РЛХФ. На питања са више одговора, оба основа GPT-4 модел и РЛХФ модел су у просеку имали подједнако добре резултате код програмера тестираног испита.

Већина најсавременијих (СОТА) модела, укључујући оне који могу да користе додатне протоколе за обуку или дизајн специфичан за бенцхмарк, као и постојеће велике језички модели, значајно надмашују од GPT-4.

GPT-4перформансе у погледу академских стандарда. Контраст програмера GPT-4 са најбољом СОТА-ом за неколико хитаца процењених на ЛМ-у, као и најбољом СОТА-ом са обуком специфичном за стандарде. Са изузетком ДРОП-а, GPT-4 надмашује све тренутне ЛМ-ове на свим мерилима и СОТА-у са обуком специфичном за бенцхмарк.

Интерно, програмери користе GPT-4, што је имало значајан утицај на активности попут програмирања, продаје, подршке и модерирања садржаја. Друга фаза наше методе усклађивања је сада у току јер је програмери користе да помогну људима у прегледу резултата АИ.

ММЛУ (Массиве Мулти-Таск Лангуаге Ундерстандинг) скуп података садржи питања из веома широког спектра тема о разумевању језика у различитим задацима (који обухватају 57 домена, укључујући математику, биологију, право, друштвене и хумане науке, итд.). Постоје четири могућа одговора на питање, од којих је један тачан. То јест, насумично погађање показује резултат од 25% тачних одговора. Погледајте слику испод за примере питања и њихове потешкоће. Просечна особа-маркер (то јест, ово није научник, није професор — обична особа која ради као ознаку) тачно одговара на 35% питања; међутим, стручњаци могу достићи резултат од +/- 90%.

Перформансе GPT-4 на низу језика у поређењу са ранијим моделима на енглеском на ММЛУ. GPT-4 превазилази перформансе на енглеском језику постојећих језичких модела за велику већину испитаних језика, укључујући језике са малим ресурсима као што су летонски, велшки и свахили.
Опширније: 5 разлога да користите Бинг са вештачком интелигенцијом преко Гоогле-а

Првобитно је цео скуп података био на енглеском. Али шта ако се питања и одговори преводе на друге језике, посебно оне мање уобичајене? Хоће ли им модел некако функционисати? У овом тесту за превод је коришћена услуга Мицрософт Азуре Транслате. Преводи нису савршени; у неким случајевима се губе важне информације. Међутим, чак иу овом случају, GPT-4 добро ради на другим језицима. У преведеним верзијама ММЛУ, GPT-4 надмашује ниво енглеског језика других великих модела (укључујући Гоогле-ов) за 24 од 26 испитаних језика.

Поврх тога, GPT-4 ради боље на ретким језицима од ChatGPT урадио на енглеском (ChatGPT постигао резултат од 70.1%, док је резултат новог модела за тајландски био 71.8%). Оцена за тест из енглеског је била највећа, са GPT-4 перформансе 10% боље од других модела, укључујући највећи ПаЛМ из Гоогле-а. Постигла је оцену од 86.4%, док је група експерата—90%.

  • До лета 2023. АИ би можда достигао нови ниво моћи захваљујући ChatGPT, цхатбот који користи GPT-4 алгоритам и надмашује GPT-3 за фактор 570. Различити елементи доприносе ChatGPTУспех компаније, укључујући његов дизајн да буде више „човечански“ и његову употребу најсавременијег рударења података и обраде природног језика како би се повећала ефикасност и тачност.
  • Мицрософт и OpenAI објавили су обнову сарадње и планове да Бинг претрага усвоји могућности претраживања побољшане вештачком интелигенцијом у јануару. Веома софистицирани GPTзамена модела 3.5, GPT4, је управо покренут, и има потенцијал да у великој мери побољша капацитет Бинг претраге да разуме упите природног језика и пружи тачније резултате. Добра је идеја имати добар резервни план у случају да нешто крене наопако.

Прочитајте још повезаних вести:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Ињецтиве удружује снаге са АлтЛаиер-ом како би донео сигурност поновног уметања у инЕВМ
Posao Новински извештај технологија
Ињецтиве удружује снаге са АлтЛаиер-ом како би донео сигурност поновног уметања у инЕВМ
Може 3, 2024
Маса се удружује са Теллером како би увела МАСА фонд за зајмове, омогућавајући УСДЦ позајмљивање на бази
tržišta Новински извештај технологија
Маса се удружује са Теллером како би увела МАСА фонд за зајмове, омогућавајући УСДЦ позајмљивање на бази
Може 3, 2024
Велодроме лансира Суперцхаин Бета верзију у наредним недељама и проширује се преко ОП Стацк Лаиер 2 Блоцкцхаинс-а
tržišta Новински извештај технологија
Велодроме лансира Суперцхаин Бета верзију у наредним недељама и проширује се преко ОП Стацк Лаиер 2 Блоцкцхаинс-а
Може 3, 2024
ЦАРВ најављује партнерство са Аетхир-ом како би децентрализовао свој слој података и поделио награде
Posao Новински извештај технологија
ЦАРВ најављује партнерство са Аетхир-ом како би децентрализовао свој слој података и поделио награде
Може 3, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.