Август КСНУМКС, КСНУМКС

Истраживачи оспоравају појам 'настајуће способности' великих језичких модела

Објављено: 23. августа 2023. у 5:54 Ажурирано: 23. августа 2023. у 5:54

Измењено и проверено: 23. август 2023. у 5:54

Укратко

АГИ апокалипса изазива забринутост због изненадног феномена великих језичких модела демонстрирање способности које изгледа да мањи модели немају.

Овај феномен се назива „настајуће способности великих језичких модела“.

Аутори чланка „Да ли су појавне способности великих језичких модела фатаморгана?“ тврде да ефекат нових способности није фатаморгана, већ пре предвидљив раст способности за обављање задатака.

Они показују да најмање 92% проблема Биг Бенцх-а нема изненадни пробој за велике моделе, а квалитет њихових модела расте глатко и предвидљиво како се величина модела повећава.

У недавном испитивању потенцијалних могућности великих језичких модела, истраживачи доводе у питање појам „способности у настајању“ и бацају светло на предвидљивији аспект њихове функционалности. Чланак под насловом „Откривање реалности појавних способности великих језичких модела” скреће пажњу на погрешну интерпретацију метрике која је довела до погрешног схватања да ови модели спонтано стичу напредне вештине.

Истраживачи оспоравају појам 'настајуће способности' великих језичких модела — Кредит: Metaverse Post / Stable Diffusion

Концепт "способности у настајању” у контексту великих језичких модела, као што су GPT серије, подстакао је забринутост у вези са потенцијалом ових модела да развију непредвиђене способности сличне људској свести. У овом раду се тврди да су ове претпоставке засноване на погрешном разумевању стварног понашања и могућности модела.

Уобичајени феномен, где већи модели наизглед стичу новооткривене способности као што су апстрактно расуђивање, решавање проблема, па чак и хумор, скован је као „настајуће способности великих језичких модела“. Аутори чланка тврде да ове способности нису тако спонтане како изгледају, већ су резултат обмањујућих метрика евалуације.

Да би илустровали своју поенту, истраживачи разматрају задатак „погоди загонетку“, проблем у коме је језички модел потребан да би разумео загонетку природног језика и одговорио тачним одговором на природном језику. Традиционално, квалитет одговора се процењује коришћењем бинарне метрике: одговору се додељује оцена 1 ако се тачно поклапа са тачним одговором, и оцена 0 у супротном.

Суштина ствари лежи у осетљивости метрике на сложеност задатка и број параметара модела. Истраживачи откривају да ова бинарна метрика доводи до а варљива перцепција „способности у настајању“. Мањи модели често показују занемарљиву тачност (епс) на овој метрици, док се чини да већи модели, посебно они са великим бројем параметара, постижу изузетне нивое тачности (ацц > 0.5).

У чланку се тврди да ова очигледна промена у способностима не указује на то да модели спонтано стичу сложене вештине. Уместо тога, способност модела да разумеју и генеришу нијансираније одговоре произилази из пажљивије процене њихових резултата. Фокусирајући се на вероватноћа и семантичку кохерентност, а не на тачна подударања низова, истраживачи показују да напредовање модела у изведби прати логичнију путању, без обзира на њихову величину.

Напомена: Еволуција четбота из Т9-ере и GPT-1 до ChatGPT

Истраживање еволуције перформанси модела са променом параметара

У аналитичком истраживању, истраживачи откривају суптилну механику која стоји иза уочених „способности у настајању“ велики језички модели. Студија доводи у питање утицај супердискретних метрика у процени перформанси модела и разјашњава предиктивније разумевање њихових могућности како се параметри модела шире.

Преовлађујући појам „способности у настајању“ у експанзивним језичким моделима заокупио је дискусије и подстакао забринутост око потенцијалних открића. Ова студија настоји да раздвоји механику која лежи у основи овог феномена и дешифрује да ли ови модели заиста показују изненадне, невиђене способности или се ови уочени напредак могу приписати другом узроку.

У срцу студије лежи педантна процена метрике која се користи за мерење перформанси модела. Истраживачи тврде да употреба супердискретних метрика, посебно конвенционалне бинарне метрике која одређује тачна подударања низова, може пореметити интерпретацију великих способности језичког модела. Студија пажљиво анализира како се дистрибуција вероватноће одговора генерисаних моделом развија као скала параметара модела.

За разлику од појма „способности у настајању“, студија открива систематичнији тренд. Како се величина модела повећава, побољшава се његова способност да припише веће вероватноће одговарајућим одговорима, а мање вероватноће нетачним. Ово одражава доследно побољшање капацитета модела да адекватно решава проблеме у широком распону величина. У суштини, истраживање сугерише да процес учења модела прати добро-defiпотребна путања побољшања, а не изненадни скок.

Аутори уводе промену парадигме предлажући замену дискретних метрика континуираним. Ова промена нуди јаснију слику еволуције перформанси. Својом анализом, истраживачи су утврдили да је око 92% од Проблеми са великим клупом показују несметан и предвидљив раст квалитета како се величина модела шири. Овај налаз доводи у питање идеју да већи модели доживљавају изненадне помаке и уместо тога наглашава постепенији и очекивани напредак.

Студија проширује своје увиде како би потврдила своје тврдње. Он показује да се исти ефекат „способности у настајању“ може вештачки симулирати коришћењем конвенционалних аутоенкодера, што сугерише да избор метрике значајно утиче на уочене резултате. Ово откриће проширује обим импликација студије, показујући њену релевантност изван самих језичких модела.

Истраживачи наглашавају да њихови резултати нису defiнитивно негирају потенцијал за „настајуће способности“ или свест у великим језичким моделима. Међутим, њихови налази охрабрују истраживаче да приступе таквим тврдњама са нијансираном перспективом. Уместо да на брзину екстраполира и формира екстремне закључке, студија наглашава важност педантне истраге и свеобухватне анализе.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов