Arvamus Tehnoloogia
August 23, 2023

Teadlased seavad kahtluse alla suurte keelemudelite esilekerkivate võimete mõiste

Põgusalt

AGI apokalüpsis tekitab muret suurte keelemudelite ootamatu nähtuse tõttu võimete demonstreerimine mida väiksematel mudelitel ei paista olevat.

Seda nähtust nimetatakse "suurte keelemudelite esilekerkivateks võimeteks".

Artikli "Kas suurte keelemudelite esilekerkivad võimed on miraaž?" väidavad, et esilekerkivate võimete mõju ei ole miraaž, vaid pigem ülesannete täitmise võime prognoositav kasv.

Need näitavad, et vähemalt 92% Big Benchi probleemidest ei ole suurte mudelite puhul äkilist läbimurret ning nende mudelite kvaliteet kasvab sujuvalt ja prognoositavalt mudelite suuruse kasvades.

Hiljuti uurides suurte keelemudelite potentsiaalseid võimalusi, seavad teadlased kahtluse alla "tekkivate võimete" mõiste ja valgustavad nende funktsionaalsuse prognoositavamat aspekti. Artikkel pealkirjaga "Suurte keelemudelite esilekerkivate võimete tegelikkuse paljastamine” juhib tähelepanu mõõdikute valele tõlgendamisele, mis on viinud väärarusaamani, et need mudelid omandavad spontaanselt kõrgemaid oskusi.

Teadlased seavad kahtluse alla suurte keelemudelite esilekerkivate võimete mõiste
krediit: Metaverse Post / Stable Diffusion

Mõisteesilekerkivad võimed” suurte keelemudelite kontekstis, nagu näiteks GPT seeria, on tekitanud muret nende mudelite potentsiaali pärast arendada inimteadvusega sarnaseid ettenägematuid võimeid. See artikkel kinnitab, et need eeldused põhinevad mudelite tegeliku käitumise ja võimete puudulikul mõistmisel.

Tavaliselt täheldatud nähtus, kus suuremad mudelid omandavad näiliselt uued võimed, nagu abstraktne arutlusvõime, probleemide lahendamine ja isegi huumor, on loodud "suurte keelemudelite esilekerkivateks võimeteks". Artikli autorid väidavad, et need võimed ei ole nii spontaansed, kui näivad, vaid pigem eksitavate hindamismõõdikute tulemus.

Oma mõtte illustreerimiseks leiavad teadlased, et "arva ära mõistatus" on probleem, mille puhul keelemudel peab mõistma loomuliku keele mõistatust ja vastama õige vastusega loomulikus keeles. Traditsiooniliselt on vastuste kvaliteeti hinnatud binaarse mõõdiku abil: vastusele määratakse hind 1, kui see vastab täpselt õigele vastusele, ja 0 muul juhul.

Asja tuum seisneb mõõdiku tundlikkuses ülesande keerukuse ja mudeli parameetrite arvu suhtes. Teadlased näitavad, et see binaarne mõõdik viib a petlik taju "tekitavatest võimetest". Väiksematel mudelitel on selle mõõdiku puhul sageli tühine täpsus (eps), samas kui suuremad mudelid, eriti suure parameetrite arvuga mudelid, näivad saavutavat märkimisväärse täpsustaseme (acc > 0.5).

Artiklis väidetakse, et see näiline nihe võimetes ei viita mudelitele, kes omandavad spontaanselt keerukaid oskusi. Selle asemel tuleneb mudelite võime mõista ja luua nüansirikkamaid vastuseid nende väljundite täpsemast hindamisest. Keskendudes pigem tõenäosuslikule sobitamisele ja semantilisele sidususele kui täpsetele stringide vastetele, näitavad teadlased, et mudelite edenemine esituses järgib loogilisemat trajektoori, olenemata nende suurusest.

seotud: T9-ajastu vestlusrobotite areng ja GPT-1 et ChatGPT

Mudeli jõudluse evolutsiooni uurimine muutuvate parameetritega

Mudeli jõudluse evolutsiooni uurimine muutuvate parameetritega
krediit: Metaverse Post / Stable Diffusion

Analüütilise uurimise käigus avastavad teadlased peenmehaanika, mis peitub tajutavate "tekkivate võimete" taga. suured keelemudelid. Uuring seab kahtluse alla superdiskreetsete mõõdikute mõju mudeli jõudluse hindamisel ja selgitab mudeli parameetrite laienemisel nende võimete prognoositavamat mõistmist.

Ekspansiivsetes keelemudelites valitsev arusaam "tekitavatest võimetest" on köitnud arutelusid ja tekitanud muret võimalike läbimurde pärast. Selle uuringu eesmärk on lahutada selle nähtuse aluseks olevad mehaanikad ja dešifreerida, kas nendel mudelitel on tõepoolest äkilised, enneolematud võimalused või kas neid tajutavaid edusamme saab seostada mõne muu põhjusega.

Uuringu keskmes on mudeli toimivuse mõõtmiseks kasutatud mõõdikute täpne hindamine. Teadlased väidavad, et ülidiskreetsete mõõdikute, eriti tavapärase binaarmeetria kasutamine, mis määrab stringide täpsed vasted, võib moonutada suurte mõõtmiste tõlgendamist. keelemudeli oskused. Uuringus analüüsitakse põhjalikult, kuidas mudeliga genereeritud vastuste tõenäosusjaotus areneb mudeli parameetrite skaala järgi.

Vastupidiselt "tekkivate võimete" mõistele näitab uuring süstemaatilisemat suundumust. Mudeli suuruse kasvades paraneb selle võime määrata sobivatele vastustele suuremaid ja valedele väiksemaid tõenäosusi. See peegeldab järjekindlat täiustamist mudeli suutlikkuses lahendada suurepäraselt probleeme paljudes suurustes. Sisuliselt näitavad uuringud, et mudelite õppeprotsess järgib hästidefined paranemise trajektoori, mitte äkilist hüpet.

Autorid tutvustavad paradigma muutust, pakkudes välja diskreetsete mõõdikute asendamise pidevatega. See muudatus annab jõudluse arengust selgema pildi. Analüüsi kaudu tegid teadlased kindlaks, et ligikaudu 92% juhtudest Big Benchi probleemid mudeli suuruse suurenemisel kvaliteedi sujuv ja prognoositav kasv. See leid seab kahtluse alla arusaama, et suuremad mudelid kogevad äkilisi läbimurdeid ja tõstavad selle asemel esile järkjärgulisema ja eeldatava arengu.

Uuring laiendab oma teadmisi oma väidete kinnitamiseks. See näitab, et sama "tekkiva võime" efekti saab kunstlikult simuleerida tavapäraste autoenkooderite abil, mis viitab sellele, et mõõdikute valik mõjutab oluliselt tajutavaid tulemusi. See ilmutus laiendab uuringu mõju ulatust, näidates selle asjakohasust väljaspool ainult keelemudeleid.

Teadlased rõhutavad, et nende tulemused seda ei tee defivälistavad suures keelemudelis „tekkivate võimete” või teadvuse potentsiaali. Kuid nende leiud julgustavad teadlasi sellistele väidetele lähenema nüansirikka vaatenurgaga. Selle asemel, et kiirustades ekstrapoleerida ja teha äärmuslikke järeldusi, rõhutab uuring põhjaliku uurimise ja põhjaliku analüüsi tähtsust.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Institutsionaalne isu kasvab volatiilsuse tõttu Bitcoini ETF-ide poole

13F-i dokumentide kaudu avaldatud teave paljastab märkimisväärsed institutsionaalsed investorid, kes tegelevad Bitcoini ETF-idega, rõhutades, et ...

Rohkem teada

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
BLOCKCHANCE ja CONF3RENCE ühinege Saksamaa suurimaks Web3 Konverents Dortmundis
Äri turud tarkvara Lood ja ülevaated Tehnoloogia
BLOCKCHANCE ja CONF3RENCE ühinege Saksamaa suurimaks Web3 Konverents Dortmundis
Võib 9 2024
NuLink käivitub Bybitis Web3 IDO platvorm. Tellimisfaas kestab 13. maini
turud Uudiste reportaaž Tehnoloogia
NuLink käivitub Bybitis Web3 IDO platvorm. Tellimisfaas kestab 13. maini
Võib 9 2024
UXLINK ja Binance teevad koostööd uue kampaania kallal, pakkudes kasutajatele 20 miljonit UXUY-punkti ja Airdrop Hüved
turud Uudiste reportaaž Tehnoloogia
UXLINK ja Binance teevad koostööd uue kampaania kallal, pakkudes kasutajatele 20 miljonit UXUY-punkti ja Airdrop Hüved
Võib 9 2024
Side Protocol käivitab stimuleeritud testvõrgu ja tutvustab siseringipunktide süsteemi, mis võimaldab kasutajatel teenida külgpunkte
turud Uudiste reportaaž Tehnoloogia
Side Protocol käivitab stimuleeritud testvõrgu ja tutvustab siseringipunktide süsteemi, mis võimaldab kasutajatel teenida külgpunkte
Võib 9 2024
CRYPTOMERIA LABS PTE. LTD.