Vijesti Tehnologija
Listopada 12, 2023

Današnji modeli velikih jezika bit će mali modeli, prema istraživaču na OpenAI

Hyung Won Chung, uspješni istraživač umjetne inteligencije koji je prije bio zaposlen u Google Brainu, a trenutno je član OpenAI tima, održao je 45-minutni govor koji je naveo na razmišljanje u kojem je istražio svijet velikih jezičnih modela 2023. Chung ima iskustva na tom području; bio je prvi autor Googleovog rada "Skaliranje instrukcija - fino podešeni jezični modeli,” koja ispituje kako se veliki jezični modeli mogu uvježbati da slijede upute.

Hyung Won Chung, OpenAI

Chung naglašava da je svijet ekstenzivnih jezičnih modela dinamičan. U svijetu LLM-a, načelo vodilja se neprestano razvija, za razliku od tradicionalnih područja gdje temeljne pretpostavke obično ostaju stabilne. S nadolazećom generacijom modela, ono što se trenutno smatra nemogućim ili nepraktičnim moglo bi postati moguće. Naglašava značaj početka većine tvrdnji o sposobnostima LLM-a s "za sada". Model može izvršiti zadatak; samo to još nije učinio.

Današnji veliki modeli će za nekoliko godina biti mali modeli

Hyung Won Chung, OpenAI

Potreba za pedantnom dokumentacijom i ponovljivošću u istraživanje umjetne inteligencije jedna je od najvažnijih lekcija koje se mogu naučiti iz Chungova govora. Ključno je temeljito dokumentirati rad koji je u tijeku kako se polje razvija. Ova strategija jamči da se eksperimenti mogu brzo replicirati i ponovno pregledati, omogućujući istraživačima da nadograđuju prethodni rad. Kroz ovu praksu, priznaje se da se u budućnosti mogu razviti sposobnosti koje nisu bile praktične tijekom početnog istraživanja.

Chung posvećuje dio svog govora razjašnjavanju zamršenosti podataka i paralelizma modela. Za one koji su zainteresirani za dublje proučavanje tehničkih aspekata umjetne inteligencije, ovaj odjeljak pruža dragocjene uvide u unutarnji rad ovih tehnika paralelizma. Razumijevanje ovih mehanizama ključno je za optimizaciju trening modela velikih razmjera.

Chung tvrdi da je trenutna funkcija cilja, maksimalna vjerojatnost, koja se koristi za LLM prethodnu obuku, usko grlo kada se radi o postizanju zaista velikih razmjera, kao što je 10,000 XNUMX puta veći kapacitet od GPT-4. Kako strojno učenje napreduje, ručno dizajnirane funkcije gubitka postaju sve više ograničavajuće.

Chung predlaže da sljedeća paradigma u razvoju umjetne inteligencije uključuje funkcije učenja putem zasebnih algoritama. Ovaj pristup, iako je u povojima, obećava skalabilnost izvan trenutnih ograničenja. On također ističe stalne napore, kao što je Pojačavanje učenja iz ljudske povratne informacije (RLHF) s modeliranjem pravila, kao korake u tom smjeru, iako izazovi i dalje treba prevladati.

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Algoritam za rudarenje koji pokreće ZKPs, Soland najavljuje svoje pokretanje i 20-dnevnu pretprodaju rudara
Vijesti Tehnologija
Algoritam za rudarenje koji pokreće ZKPs, Soland najavljuje svoje pokretanje i 20-dnevnu pretprodaju rudara
Neka 13, 2024
Notcoin planira distribuirati 5% svoje zalihe tokena na 500,000 članova zajednice i korisnika kripto razmjene
tržišta Vijesti Tehnologija
Notcoin planira distribuirati 5% svoje zalihe tokena na 500,000 članova zajednice i korisnika kripto razmjene
Neka 13, 2024
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
posao tržišta Priče i recenzije Tehnologija
Prelazak Donalda Trumpa na kriptovalute: od protivnika do zagovornika i što to znači za američko tržište kriptovaluta
Neka 10, 2024
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
tržišta Vijesti Tehnologija
Layer3 će lansirati L3 token ovog ljeta, dodjeljujući 51% ukupne ponude zajednici
Neka 10, 2024
CRYPTOMERIA LABS PTE. LTD.