Vijesti Tehnologija
Travnja 05, 2023

8 stvari koje biste trebali znati o modelima velikih jezika

Ukratko

Veliki jezični modeli (LLMs) koriste se za istraživanje nijansi prirodnog jezika, poboljšanje sposobnosti strojeva za razumijevanje i generiranje teksta i automatizaciju zadataka kao što su prepoznavanje glasa i strojno prevođenje.

Ne postoji jednostavno rješenje za upravljanje LLM-ima, ali oni su jednako sposobni kao i ljudi.

S porastom razvoja obrade prirodnog jezika i njegove uporabe u poslovanju, raste interes za velike jezične modele. Ovi se modeli koriste za istraživanje nijansi prirodnog jezika, poboljšavaju sposobnost strojeva da razumiju i generiraju tekst i automatiziraju zadatke kao što su prepoznavanje glasa i strojno prevođenje. Evo osam bitnih stvari koje biste trebali znati o velikim jezičnim modelima (LLM).

10 stvari koje biste trebali znati o modelima velikih jezika
@Midjourney / Taka#4076

LLM-i su "sposobniji" jer troškovi stalno rastu

LLM predvidljivo postaje sve "sposobniji" s povećanjem troškova, čak i bez cool inovacija. Ovdje je glavna stvar predvidljivost, što je prikazano u članku o GPT-4: pet do sedam malih modela podučavano je s budžetom od 0.1% konačnog, a zatim je na temelju toga napravljeno predviđanje za veliki model. Za opću procjenu složenosti i metrike na poduzorku jednog specifičnog zadatka, takvo je predviđanje bilo vrlo točno. Ova predvidljivost je važna za tvrtke i organizacije koje se oslanjaju na LLM za svoje operacije, budući da mogu proračunati u skladu s tim i planirati buduće troškove. Međutim, važno je napomenuti da, iako povećanje troškova može dovesti do poboljšanih sposobnosti, stopa poboljšanja može na kraju stajati, zbog čega je potrebno ulagati u nove inovacije kako bi se nastavilo s napredovanjem.

Kratak pregled kako GPT modeli se prilagođavaju kako troškovi obuke rastu

Međutim, specifične važne vještine imaju tendenciju da se nepredvidivo pojave kao nusprodukt povećanja troškovi obuke (duža obuka, više podataka, veći model) — gotovo je nemoguće predvidjeti kada će modeli početi obavljati određene zadatke. Temu smo detaljnije istražili u našem članak o povijesti razvoja GPT modeli. Slika prikazuje distribuciju povećanja kvalitete modela po različitim zadacima. Samo veliki modeli mogu naučiti obavljati razne zadatke. Ovaj grafikon naglašava značajan utjecaj povećanja veličine GPT modeli na njihov učinak u raznim zadacima. Međutim, važno je napomenuti da to dolazi po cijenu povećanih računalnih resursa i utjecaja na okoliš.

Kratak pregled kako GPT modeli se prilagođavaju kako troškovi obuke rastu

LLM uče igrati društvene igre koristeći prikaze vanjskog svijeta

LLM često uče i koriste prikaze vanjskog svijeta. Ovdje ima mnogo primjera, a evo jednog od njih: Modeli obučeni igrati društvene igre na temelju opisa pojedinačnih poteza, a da nikada ne vidite sliku polja za igru, naučite interne prikaze stanja ploče pri svakom potezu. Ovi interni prikazi se zatim mogu koristiti za predvidjeti budućnost poteze i ishode, omogućujući modelu da igra igru ​​na visokoj razini. Ova sposobnost učenja i korištenja reprezentacija je ključna aspekt strojnog učenja i umjetna inteligencija.

Ne postoji jednostavno rješenje za upravljanje LLM-om

Ne postoje pouzdane metode za kontrolu ponašanja LLM-a. Iako je bilo određenog napretka u razumijevanju i ublažavanju raznih problema (uključujući ChatGPT i GPT-4 uz pomoć povratne informacije), ne postoji konsenzus o tome možemo li ih riješiti. Postoji sve veća zabrinutost da će to postati ogroman, potencijalno katastrofalan problem u budućnosti kada se stvore još veći sustavi. Stoga istraživači istražuju nove metode kako bi osigurali usklađivanje sustava umjetne inteligencije s ljudskim vrijednostima i ciljevima, kao što su usklađivanje vrijednosti i inženjering nagrađivanja. Međutim, ostaje izazovan zadatak zajamčiti sigurnost i pouzdanost LLM-a u složenim scenarijima stvarnog svijeta.

Pročitajte više: OpenAI Okuplja tim od 50+ stručnjaka za poboljšanje GPT-4je sigurnost

Stručnjaci imaju problema s objašnjenjem kako LLM funkcionira

Stručnjaci još ne mogu protumačiti unutarnje funkcioniranje LLM-a. Niti jedna tehnika nam ne bi omogućila da na bilo koji zadovoljavajući način odredimo koje vrste znanja, razmišljanja ili ciljeva koristi model kada generira bilo kakav rezultat. Ovaj nedostatak tumačenja izaziva zabrinutost oko pouzdanosti i pravednosti odluka LLM-a, posebno u aplikacijama s visokim ulozima kao što su kazneno pravo ili kreditno bodovanje. Također naglašava potrebu za daljnjim istraživanjem razvoja transparentnijih i odgovornijih modela umjetne inteligencije.

LLM-ovi su jednako sposobni kao i ljudi

Iako se LLM-i osposobljavaju prvenstveno za oponašati ljudsko ponašanje pri pisanju teksta, imaju potencijal nadmašiti nas u mnogim zadacima. To se već može vidjeti kada igrate šah ili Go. To je zbog njihove sposobnosti da analiziraju ogromne količine podataka i donose odluke na temelju te analize brzinom s kojom se ljudi ne mogu mjeriti. Međutim, LLM još uvijek nemaju kreativnost i intuiciju koju ljudi posjeduju, što ih čini manje prikladnima za mnoge zadatke.

Pročitajte više: OpenAI Okuplja tim od 50+ stručnjaka za poboljšanje GPT-4je sigurnost

LLM moraju biti više od pukog "vješta za sve"

LLM ne smiju izražavati vrijednosti svojih kreatora ili vrijednosti kodirane u izboru s interneta. Ne bi trebali ponavljati stereotipe ili teorije zavjere niti nastojati bilo koga uvrijediti. Umjesto toga, LLM bi trebali biti osmišljeni tako da svojim korisnicima pružaju nepristrane i činjenične informacije, poštujući pritom kulturne i društvene razlike. Osim toga, trebali bi se podvrgavati redovitom testiranju i praćenju kako bi se osiguralo da i dalje zadovoljavaju te standarde.

Manekenke su 'pametnije' nego što ljudi misle na temelju prvog dojma

Procjene sposobnosti modela na temelju prvog dojma često su pogrešne. Vrlo često trebate smisliti pravi upit, predložiti model, možda pokazati primjere, i počet će se puno bolje snalaziti. Odnosno, "pametniji" je nego što se na prvi pogled čini. Stoga je ključno dati modelu poštenu priliku i osigurati mu potrebne resurse za najbolje rezultate. Pravilnim pristupom i naizgled neadekvatni modeli mogu nas iznenaditi svojim mogućnostima.

Ako se usredotočimo na uzorak od 202 zadatka iz skupa podataka BIG-Bench (posebno je otežan za testiranje jezični modeli od i do), tada u pravilu (u prosjeku), modeli pokazuju porast kvalitete s povećanjem skale, ali pojedinačno, metrike u zadacima mogu:

  • poboljšati postupno,
  • drastično poboljšati,
  • ostati nepromijenjen,
  • smanjenje,
  • ne pokazuju nikakvu korelaciju.

Sve to dovodi do nemogućnosti pouzdane ekstrapolacije performansi bilo kojeg budućeg sustava. Posebno je zanimljiv zeleni dio — upravo tu pokazatelji kvalitete naglo skaču uvis bez ikakvog razloga.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Morph predstavlja svoj Holesky Testnet s optimističkom zkEVM integracijom, mehanizmom mosta i značajkama mreže decentraliziranog sekvencera
Vijesti Tehnologija
Morph predstavlja svoj Holesky Testnet s optimističkom zkEVM integracijom, mehanizmom mosta i značajkama mreže decentraliziranog sekvencera
Neka 6, 2024
Robinhood Crypto prima obavijest Wellsa od Komisije za vrijednosne papire i burzu zbog navodnih kršenja vrijednosnih papira
tržišta Vijesti Tehnologija
Robinhood Crypto prima obavijest Wellsa od Komisije za vrijednosne papire i burzu zbog navodnih kršenja vrijednosnih papira
Neka 6, 2024
QuickSwap postavlja na X Layer Mainnet i proširuje Polygon CDK mrežu s Citadel Launch-om
Vijesti Tehnologija
QuickSwap postavlja na X Layer Mainnet i proširuje Polygon CDK mrežu s Citadel Launch-om 
Neka 6, 2024
Layer 2 Network Linea inicira zahtjev za ZeroLend-ov ZERO token Airdrop Korisnici i investitori
tržišta Vijesti Tehnologija
Layer 2 Network Linea inicira zahtjev za ZeroLend-ov ZERO token Airdrop Korisnici i investitori
Neka 6, 2024
CRYPTOMERIA LABS PTE. LTD.